fichier robots.txt et user-agent

Consultez la formation au référencement naturel Google de WebRankInfo / Ranking Metrics

bastos5
WRInaute discret
WRInaute discret
 
Messages: 65
Inscription: Ven Oct 19, 2007 11:58

fichier robots.txt et user-agent

Message le Sam Oct 20, 2007 23:55

Bonjour a tous,
En regardant les logs de mon serveur , je constate qu'il y a plusieurs robots qui effectuent des requetes.
Je ne veux pas bien evidemment empecher GG d'indexer mon site (bien au contraire) mais je suis sur qu'il y a certain robots qui n'apportent rien a mon site.
Je me suis donc dis qu'il faut que je remplisse un peu mieux mon robots.txt , et j'ai regarder celui de WRI pour avoir un exemplet et la surprise, il y en a un nombre enorme!!
Ma question est: puis-je sans souci recopier la liste d'exclusion des user-agents de WRI ou cela risque-t-il de penaliser mon site (qui il faut le dire n'a pas du tout la meme carrure)?


mahefarivony
WRInaute accro
WRInaute accro
 
Messages: 11405
Inscription: Lun Oct 14, 2002 10:00

Message le Dim Oct 21, 2007 0:02

ça marche ça le robots.txt pour exclure les robots indésirables ? moi j'ai plutot tout mis dans le .htaccess

bastos5
WRInaute discret
WRInaute discret
 
Messages: 65
Inscription: Ven Oct 19, 2007 11:58

Message le Dim Oct 21, 2007 0:15

Bah je sais pas, je suis debutant, mais si c'est pas pour les robots c'est quoi cette liste dans le robots.txt de WRI?
Et sinon tu fais comment dans le htacess? et tu bloque quoi?


mahefarivony
WRInaute accro
WRInaute accro
 
Messages: 11405
Inscription: Lun Oct 14, 2002 10:00

Message le Dim Oct 21, 2007 0:49

Voila ce que j'ai dans mon .htaccess dans la section réservée aux "indésirables" ou à ceux assimilés comme tel :mrgreen:
Code: Tout sélectionner
Options +FollowSymlinks
RewriteEngine on

RewriteCond %{HTTP_REFERER} XXX
RewriteCond %{HTTP_USER_AGENT} -?$ [OR]
RewriteCond %{HTTP_USER_AGENT} @nonymouse [OR]
RewriteCond %{HTTP_USER_AGENT} Advanced\ Email\ Extractor [OR]
RewriteCond %{HTTP_USER_AGENT} almaden [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Art-Online [OR]
RewriteCond %{HTTP_USER_AGENT} CherryPicker [OR]
RewriteCond %{HTTP_USER_AGENT} Crescent\ Internet\ ToolPack [OR]
RewriteCond %{HTTP_USER_AGENT} DirectUpdate [OR]
RewriteCond %{HTTP_USER_AGENT} DISCo\ Pump.* [OR]
RewriteCond %{HTTP_USER_AGENT} Download\ Accelerator [OR]
RewriteCond %{HTTP_USER_AGENT} Drip.* [OR]
RewriteCond %{HTTP_USER_AGENT} eCatch.* [OR]
RewriteCond %{HTTP_USER_AGENT} echo\ extense [OR]
RewriteCond %{HTTP_USER_AGENT} EirGrabber.* [OR]
RewriteCond %{HTTP_USER_AGENT} EmailCollector [OR]
RewriteCond %{HTTP_USER_AGENT} EmailWolf [OR]
RewriteCond %{HTTP_USER_AGENT} ExtractorPro.* [OR]
RewriteCond %{HTTP_USER_AGENT} EyeNetIE.* [OR]
RewriteCond %{HTTP_USER_AGENT} FairAd\ Client.* [OR]
RewriteCond %{HTTP_USER_AGENT} Fetch\ API\ Request [OR]
RewriteCond %{HTTP_USER_AGENT} flashget [NC,OR]
RewriteCond %{HTTP_USER_AGENT} FlashGet.* [OR]
RewriteCond %{HTTP_USER_AGENT} frontpage [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Gets.* [OR]
RewriteCond %{HTTP_USER_AGENT} Go!Zilla [OR]
RewriteCond %{HTTP_USER_AGENT} Go-Ahead-Got-It.* [OR]
RewriteCond %{HTTP_USER_AGENT} Grafula.* [OR]
RewriteCond %{HTTP_USER_AGENT} HTTP\ agent [OR]
RewriteCond %{HTTP_USER_AGENT} HTTPConnect [OR]
RewriteCond %{HTTP_USER_AGENT} HTTrack [OR]
RewriteCond %{HTTP_USER_AGENT} ia_archiver.* [OR]
RewriteCond %{HTTP_USER_AGENT} IBrowse.* [OR]
RewriteCond %{HTTP_USER_AGENT} Indy\ Library [OR]
RewriteCond %{HTTP_USER_AGENT} InterGET.* [OR]
RewriteCond %{HTTP_USER_AGENT} Internet\ Ninja.* [OR]
RewriteCond %{HTTP_USER_AGENT} InternetLinkAgent.* [OR]
RewriteCond %{HTTP_USER_AGENT} IPiumBot\ laurion(dot)com [OR]
RewriteCond %{HTTP_USER_AGENT} iwantmy.* [OR]
RewriteCond %{HTTP_USER_AGENT} iwantmyxxx.com.* [OR]
RewriteCond %{HTTP_USER_AGENT} JetCar.* [OR]
RewriteCond %{HTTP_USER_AGENT} JustView.* [OR]
RewriteCond %{HTTP_USER_AGENT} Kapere [OR]
RewriteCond %{HTTP_USER_AGENT} LeechGet.* [OR]
RewriteCond %{HTTP_USER_AGENT} lftp.* [OR]
RewriteCond %{HTTP_USER_AGENT} libwww-perl [OR]
RewriteCond %{HTTP_USER_AGENT} Microsoft\ URL\ Control [OR]
RewriteCond %{HTTP_USER_AGENT} MIDown\ tool.* [OR]
RewriteCond %{HTTP_USER_AGENT} MIIxpc.* [OR]
RewriteCond %{HTTP_USER_AGENT} minibot\ (NaverRobot\ ) [OR]
RewriteCond %{HTTP_USER_AGENT} Mister\ PiX.* [OR]
RewriteCond %{HTTP_USER_AGENT} MSProxy.* [OR]
RewriteCond %{HTTP_USER_AGENT} NearSite.* [OR]
RewriteCond %{HTTP_USER_AGENT} NetSpider.* [OR]
RewriteCond %{HTTP_USER_AGENT} NICErsPRO [OR]
RewriteCond %{HTTP_USER_AGENT} NPBot [OR]
RewriteCond %{HTTP_USER_AGENT} Offline\ Explorer.* [OR]
RewriteCond %{HTTP_USER_AGENT} Offline\ Navigator [OR]
RewriteCond %{HTTP_USER_AGENT} PageGrabber.* [OR]
RewriteCond %{HTTP_USER_AGENT} Papa\ Foto.* [OR]
RewriteCond %{HTTP_USER_AGENT} PlantyNet_WebRo.* [OR]
RewriteCond %{HTTP_USER_AGENT} Pockey.* [OR]
RewriteCond %{HTTP_USER_AGENT} Program\ Shareware [OR]
RewriteCond %{HTTP_USER_AGENT} QuepasaCreep [OR]
RewriteCond %{HTTP_USER_AGENT} ReGet.* [OR]
RewriteCond %{HTTP_USER_AGENT} SilentSurf.* [OR]
RewriteCond %{HTTP_USER_AGENT} SiteMapper [OR]
RewriteCond %{HTTP_USER_AGENT} Slurp.* [OR]
RewriteCond %{HTTP_USER_AGENT} SpaceBison.* [OR]
RewriteCond %{HTTP_USER_AGENT} Star\ Downloader [OR]
RewriteCond %{HTTP_USER_AGENT} SuperHTTP.* [OR]
RewriteCond %{HTTP_USER_AGENT} SurveyBot [OR]
RewriteCond %{HTTP_USER_AGENT} tAkeOut.*
RewriteCond %{HTTP_USER_AGENT} Teleport.* [OR]
RewriteCond %{HTTP_USER_AGENT} Teleport\ Pro [OR]
RewriteCond %{HTTP_USER_AGENT} Telesoft [OR]
RewriteCond %{HTTP_USER_AGENT} TuringOS [OR]
RewriteCond %{HTTP_USER_AGENT} TurnitinBot [OR]
RewriteCond %{HTTP_USER_AGENT} vobsub [NC,OR]
RewriteCond %{HTTP_USER_AGENT} wantmy.* [OR]
RewriteCond %{HTTP_USER_AGENT} Web\ Image\ Collector.* [OR]
RewriteCond %{HTTP_USER_AGENT} Web\ Sucker.* [OR]
RewriteCond %{HTTP_USER_AGENT} WebAuto.* [OR]
RewriteCond %{HTTP_USER_AGENT} webbandit [NC,OR]
RewriteCond %{HTTP_USER_AGENT} WebCapture [OR]
RewriteCond %{HTTP_USER_AGENT} webcollage [OR]
RewriteCond %{HTTP_USER_AGENT} WebCopier.* [OR]
RewriteCond %{HTTP_USER_AGENT} WebDAV [OR]
RewriteCond %{HTTP_USER_AGENT} WebEmailExtractor [OR]
RewriteCond %{HTTP_USER_AGENT} WebFetch.* [OR]
RewriteCond %{HTTP_USER_AGENT} WebReaper.* [OR]
RewriteCond %{HTTP_USER_AGENT} WebSauger.* [OR]
RewriteCond %{HTTP_USER_AGENT} WEBsaver [OR]
RewriteCond %{HTTP_USER_AGENT} Website\ Quester.* [OR]
RewriteCond %{HTTP_USER_AGENT} Webster.* [OR]
RewriteCond %{HTTP_USER_AGENT} WebStripper.* [OR]
RewriteCond %{HTTP_USER_AGENT} WebWhacker.* [OR]
RewriteCond %{HTTP_USER_AGENT} WebZIP [OR]
RewriteCond %{HTTP_USER_AGENT} WebZIP.* [OR]
RewriteCond %{HTTP_USER_AGENT} WFARC.* [OR]
RewriteCond %{HTTP_USER_AGENT} Wget [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Wget.* [OR]
RewriteCond %{HTTP_USER_AGENT} Wysigot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Zeus [OR]
RewriteCond %{HTTP_USER_AGENT} Zeus.*Webster [OR]
RewriteCond %{HTTP_USER_AGENT} ^Maxthon [NC,OR]
RewriteRule ^.*$ http://www.google.com [R,L]


En clair : "si user-agent fait partie de cette liste alors les rediriger vers ... google.com" :mrgreen:

A ceux qui se demandent pourquoi j'ai rajouté "Maxthon" c'est tout simplement parce-que j'avais subis un DDOS provenant de ce browser...

CS76
WRInaute discret
WRInaute discret
 
Messages: 88
Inscription: Lun Oct 20, 2003 21:24

Message le Dim Oct 21, 2007 10:37

Pour compléter la réponse sur l'utilité du fichier robots.txt :
http://fr.wikipedia.org/wiki/Fichier_d' ... des_robots

bastos5
WRInaute discret
WRInaute discret
 
Messages: 65
Inscription: Ven Oct 19, 2007 11:58

Message le Dim Oct 21, 2007 11:55

Merci pour vos reponse, si j'ai bien compris, l'unique moyen de réelement empêcher ces user-agent de sonder mon site est le htaccess, le robots.txt n'étant pas forcement pris en compte si l'initiateur du robot ne le désire pas.


pcamliti
WRInaute passionné
WRInaute passionné
 
Messages: 692
Inscription: Ven Mar 09, 2007 14:38

Message le Lun Oct 22, 2007 13:08

Utiliser les user agent est-ce bien raisonnable en terme d'indexation ? :?:


mahefarivony
WRInaute accro
WRInaute accro
 
Messages: 11405
Inscription: Lun Oct 14, 2002 10:00

Message le Lun Oct 22, 2007 14:52

Le nec plus ultra c'est de virer automatiquement les gros "gourmands" qui font un peu trop de requetes à la seconde.
C'est possible sur un serveur dédiée (iptables...) mais sur un mutualisé, je vois pas trop comment faire.

bastos5
WRInaute discret
WRInaute discret
 
Messages: 65
Inscription: Ven Oct 19, 2007 11:58

Message le Lun Oct 22, 2007 18:37

pcamliti a écrit:Utiliser les user agent est-ce bien raisonnable en terme d'indexation ? :?:

Bah si, j'enlève pas ceux de google et des autres gros moteur , je risque rien , non?


Formation recommandée sur ce thème :

Formation Référencement naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.

Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.

Lectures recommandées sur ce thème :

Consultez la description détaillée des produits ou services de Google suivants : Google Feed Fetcher

  • Logiciel de référencement AgentWebRanking
    AgentWebRanking est un logiciel professionnel qui permet d'analyser le positionnement d'un ou plusieurs sites dans plus de 300 moteurs de recherche dans le monde. Vous pouvez ainsi analyser les performances du référencement pour de nombreux mots-clés.


Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités