fichier robots.txt et user-agent

Règles du forum
Attention ce forum est destiné avant tout à ceux qui découvrent le référencement. Les membres qui auront l'amabilité de répondre à leurs questions sont priés de rester courtois, polis, indulgents, patients et pédagogues... Merci d'avance !

Par ailleurs, inutile d'utiliser ce forum uniquement pour obtenir des liens vers vos sites, les liens sont désactivés pour le référencement (nofollow).

Consultez la formation au REFERENCEMENT naturel Google de WebRankInfo / Ranking Metrics

bastos5
WRInaute discret
WRInaute discret
 
Messages: 65
Inscription: 19 Oct 2007

fichier robots.txt et user-agent

Message le Sam Oct 20, 2007 23:55

Bonjour a tous,
En regardant les logs de mon serveur , je constate qu'il y a plusieurs robots qui effectuent des requetes.
Je ne veux pas bien evidemment empecher GG d'indexer mon site (bien au contraire) mais je suis sur qu'il y a certain robots qui n'apportent rien a mon site.
Je me suis donc dis qu'il faut que je remplisse un peu mieux mon robots.txt , et j'ai regarder celui de WRI pour avoir un exemplet et la surprise, il y en a un nombre enorme!!
Ma question est: puis-je sans souci recopier la liste d'exclusion des user-agents de WRI ou cela risque-t-il de penaliser mon site (qui il faut le dire n'a pas du tout la meme carrure)?


mahefarivony
WRInaute accro
WRInaute accro
 
Messages: 11405
Inscription: 14 Oct 2002

Message le Dim Oct 21, 2007 0:02

ça marche ça le robots.txt pour exclure les robots indésirables ? moi j'ai plutot tout mis dans le .htaccess

bastos5
WRInaute discret
WRInaute discret
 
Messages: 65
Inscription: 19 Oct 2007

Message le Dim Oct 21, 2007 0:15

Bah je sais pas, je suis debutant, mais si c'est pas pour les robots c'est quoi cette liste dans le robots.txt de WRI?
Et sinon tu fais comment dans le htacess? et tu bloque quoi?


mahefarivony
WRInaute accro
WRInaute accro
 
Messages: 11405
Inscription: 14 Oct 2002

Message le Dim Oct 21, 2007 0:49

Voila ce que j'ai dans mon .htaccess dans la section réservée aux "indésirables" ou à ceux assimilés comme tel :mrgreen:
Code: Tout sélectionner
Options +FollowSymlinks
RewriteEngine on

RewriteCond %{HTTP_REFERER} XXX
RewriteCond %{HTTP_USER_AGENT} -?$ [OR]
RewriteCond %{HTTP_USER_AGENT} @nonymouse [OR]
RewriteCond %{HTTP_USER_AGENT} Advanced\ Email\ Extractor [OR]
RewriteCond %{HTTP_USER_AGENT} almaden [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Art-Online [OR]
RewriteCond %{HTTP_USER_AGENT} CherryPicker [OR]
RewriteCond %{HTTP_USER_AGENT} Crescent\ Internet\ ToolPack [OR]
RewriteCond %{HTTP_USER_AGENT} DirectUpdate [OR]
RewriteCond %{HTTP_USER_AGENT} DISCo\ Pump.* [OR]
RewriteCond %{HTTP_USER_AGENT} Download\ Accelerator [OR]
RewriteCond %{HTTP_USER_AGENT} Drip.* [OR]
RewriteCond %{HTTP_USER_AGENT} eCatch.* [OR]
RewriteCond %{HTTP_USER_AGENT} echo\ extense [OR]
RewriteCond %{HTTP_USER_AGENT} EirGrabber.* [OR]
RewriteCond %{HTTP_USER_AGENT} EmailCollector [OR]
RewriteCond %{HTTP_USER_AGENT} EmailWolf [OR]
RewriteCond %{HTTP_USER_AGENT} ExtractorPro.* [OR]
RewriteCond %{HTTP_USER_AGENT} EyeNetIE.* [OR]
RewriteCond %{HTTP_USER_AGENT} FairAd\ Client.* [OR]
RewriteCond %{HTTP_USER_AGENT} Fetch\ API\ Request [OR]
RewriteCond %{HTTP_USER_AGENT} flashget [NC,OR]
RewriteCond %{HTTP_USER_AGENT} FlashGet.* [OR]
RewriteCond %{HTTP_USER_AGENT} frontpage [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Gets.* [OR]
RewriteCond %{HTTP_USER_AGENT} Go!Zilla [OR]
RewriteCond %{HTTP_USER_AGENT} Go-Ahead-Got-It.* [OR]
RewriteCond %{HTTP_USER_AGENT} Grafula.* [OR]
RewriteCond %{HTTP_USER_AGENT} HTTP\ agent [OR]
RewriteCond %{HTTP_USER_AGENT} HTTPConnect [OR]
RewriteCond %{HTTP_USER_AGENT} HTTrack [OR]
RewriteCond %{HTTP_USER_AGENT} ia_archiver.* [OR]
RewriteCond %{HTTP_USER_AGENT} IBrowse.* [OR]
RewriteCond %{HTTP_USER_AGENT} Indy\ Library [OR]
RewriteCond %{HTTP_USER_AGENT} InterGET.* [OR]
RewriteCond %{HTTP_USER_AGENT} Internet\ Ninja.* [OR]
RewriteCond %{HTTP_USER_AGENT} InternetLinkAgent.* [OR]
RewriteCond %{HTTP_USER_AGENT} IPiumBot\ laurion(dot)com [OR]
RewriteCond %{HTTP_USER_AGENT} iwantmy.* [OR]
RewriteCond %{HTTP_USER_AGENT} iwantmyxxx.com.* [OR]
RewriteCond %{HTTP_USER_AGENT} JetCar.* [OR]
RewriteCond %{HTTP_USER_AGENT} JustView.* [OR]
RewriteCond %{HTTP_USER_AGENT} Kapere [OR]
RewriteCond %{HTTP_USER_AGENT} LeechGet.* [OR]
RewriteCond %{HTTP_USER_AGENT} lftp.* [OR]
RewriteCond %{HTTP_USER_AGENT} libwww-perl [OR]
RewriteCond %{HTTP_USER_AGENT} Microsoft\ URL\ Control [OR]
RewriteCond %{HTTP_USER_AGENT} MIDown\ tool.* [OR]
RewriteCond %{HTTP_USER_AGENT} MIIxpc.* [OR]
RewriteCond %{HTTP_USER_AGENT} minibot\ (NaverRobot\ ) [OR]
RewriteCond %{HTTP_USER_AGENT} Mister\ PiX.* [OR]
RewriteCond %{HTTP_USER_AGENT} MSProxy.* [OR]
RewriteCond %{HTTP_USER_AGENT} NearSite.* [OR]
RewriteCond %{HTTP_USER_AGENT} NetSpider.* [OR]
RewriteCond %{HTTP_USER_AGENT} NICErsPRO [OR]
RewriteCond %{HTTP_USER_AGENT} NPBot [OR]
RewriteCond %{HTTP_USER_AGENT} Offline\ Explorer.* [OR]
RewriteCond %{HTTP_USER_AGENT} Offline\ Navigator [OR]
RewriteCond %{HTTP_USER_AGENT} PageGrabber.* [OR]
RewriteCond %{HTTP_USER_AGENT} Papa\ Foto.* [OR]
RewriteCond %{HTTP_USER_AGENT} PlantyNet_WebRo.* [OR]
RewriteCond %{HTTP_USER_AGENT} Pockey.* [OR]
RewriteCond %{HTTP_USER_AGENT} Program\ Shareware [OR]
RewriteCond %{HTTP_USER_AGENT} QuepasaCreep [OR]
RewriteCond %{HTTP_USER_AGENT} ReGet.* [OR]
RewriteCond %{HTTP_USER_AGENT} SilentSurf.* [OR]
RewriteCond %{HTTP_USER_AGENT} SiteMapper [OR]
RewriteCond %{HTTP_USER_AGENT} Slurp.* [OR]
RewriteCond %{HTTP_USER_AGENT} SpaceBison.* [OR]
RewriteCond %{HTTP_USER_AGENT} Star\ Downloader [OR]
RewriteCond %{HTTP_USER_AGENT} SuperHTTP.* [OR]
RewriteCond %{HTTP_USER_AGENT} SurveyBot [OR]
RewriteCond %{HTTP_USER_AGENT} tAkeOut.*
RewriteCond %{HTTP_USER_AGENT} Teleport.* [OR]
RewriteCond %{HTTP_USER_AGENT} Teleport\ Pro [OR]
RewriteCond %{HTTP_USER_AGENT} Telesoft [OR]
RewriteCond %{HTTP_USER_AGENT} TuringOS [OR]
RewriteCond %{HTTP_USER_AGENT} TurnitinBot [OR]
RewriteCond %{HTTP_USER_AGENT} vobsub [NC,OR]
RewriteCond %{HTTP_USER_AGENT} wantmy.* [OR]
RewriteCond %{HTTP_USER_AGENT} Web\ Image\ Collector.* [OR]
RewriteCond %{HTTP_USER_AGENT} Web\ Sucker.* [OR]
RewriteCond %{HTTP_USER_AGENT} WebAuto.* [OR]
RewriteCond %{HTTP_USER_AGENT} webbandit [NC,OR]
RewriteCond %{HTTP_USER_AGENT} WebCapture [OR]
RewriteCond %{HTTP_USER_AGENT} webcollage [OR]
RewriteCond %{HTTP_USER_AGENT} WebCopier.* [OR]
RewriteCond %{HTTP_USER_AGENT} WebDAV [OR]
RewriteCond %{HTTP_USER_AGENT} WebEmailExtractor [OR]
RewriteCond %{HTTP_USER_AGENT} WebFetch.* [OR]
RewriteCond %{HTTP_USER_AGENT} WebReaper.* [OR]
RewriteCond %{HTTP_USER_AGENT} WebSauger.* [OR]
RewriteCond %{HTTP_USER_AGENT} WEBsaver [OR]
RewriteCond %{HTTP_USER_AGENT} Website\ Quester.* [OR]
RewriteCond %{HTTP_USER_AGENT} Webster.* [OR]
RewriteCond %{HTTP_USER_AGENT} WebStripper.* [OR]
RewriteCond %{HTTP_USER_AGENT} WebWhacker.* [OR]
RewriteCond %{HTTP_USER_AGENT} WebZIP [OR]
RewriteCond %{HTTP_USER_AGENT} WebZIP.* [OR]
RewriteCond %{HTTP_USER_AGENT} WFARC.* [OR]
RewriteCond %{HTTP_USER_AGENT} Wget [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Wget.* [OR]
RewriteCond %{HTTP_USER_AGENT} Wysigot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Zeus [OR]
RewriteCond %{HTTP_USER_AGENT} Zeus.*Webster [OR]
RewriteCond %{HTTP_USER_AGENT} ^Maxthon [NC,OR]
RewriteRule ^.*$ http://www.google.com [R,L]


En clair : "si user-agent fait partie de cette liste alors les rediriger vers ... google.com" :mrgreen:

A ceux qui se demandent pourquoi j'ai rajouté "Maxthon" c'est tout simplement parce-que j'avais subis un DDOS provenant de ce browser...

CS76
WRInaute discret
WRInaute discret
 
Messages: 91
Inscription: 20 Oct 2003

Message le Dim Oct 21, 2007 10:37

Pour compléter la réponse sur l'utilité du fichier robots.txt :
http://fr.wikipedia.org/wiki/Fichier_d' ... des_robots

bastos5
WRInaute discret
WRInaute discret
 
Messages: 65
Inscription: 19 Oct 2007

Message le Dim Oct 21, 2007 11:55

Merci pour vos reponse, si j'ai bien compris, l'unique moyen de réelement empêcher ces user-agent de sonder mon site est le htaccess, le robots.txt n'étant pas forcement pris en compte si l'initiateur du robot ne le désire pas.


pcamliti
WRInaute impliqué
WRInaute impliqué
 
Messages: 822
Inscription: 9 Mar 2007

Message le Lun Oct 22, 2007 13:08

Utiliser les user agent est-ce bien raisonnable en terme d'indexation ? :?:


mahefarivony
WRInaute accro
WRInaute accro
 
Messages: 11405
Inscription: 14 Oct 2002

Message le Lun Oct 22, 2007 14:52

Le nec plus ultra c'est de virer automatiquement les gros "gourmands" qui font un peu trop de requetes à la seconde.
C'est possible sur un serveur dédiée (iptables...) mais sur un mutualisé, je vois pas trop comment faire.

bastos5
WRInaute discret
WRInaute discret
 
Messages: 65
Inscription: 19 Oct 2007

Message le Lun Oct 22, 2007 18:37

pcamliti a écrit:Utiliser les user agent est-ce bien raisonnable en terme d'indexation ? :?:

Bah si, j'enlève pas ceux de google et des autres gros moteur , je risque rien , non?


Si vous avez aimé cette discussion, partagez-la sur vos réseaux sociaux préférés :

Formation recommandée sur ce thème :

Formation REFERENCEMENT naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.

Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.

Lectures recommandées sur ce thème :



Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités