fichier robots.txt et user-agent
9 messages • Page 1 sur 1
Consultez la formation au référencement naturel Google de WebRankInfo / Ranking Metrics
fichier robots.txt et user-agent
Bonjour a tous,
En regardant les logs de mon serveur , je constate qu'il y a plusieurs robots qui effectuent des requetes.
Je ne veux pas bien evidemment empecher GG d'indexer mon site (bien au contraire) mais je suis sur qu'il y a certain robots qui n'apportent rien a mon site.
Je me suis donc dis qu'il faut que je remplisse un peu mieux mon robots.txt , et j'ai regarder celui de WRI pour avoir un exemplet et la surprise, il y en a un nombre enorme!!
Ma question est: puis-je sans souci recopier la liste d'exclusion des user-agents de WRI ou cela risque-t-il de penaliser mon site (qui il faut le dire n'a pas du tout la meme carrure)?
En regardant les logs de mon serveur , je constate qu'il y a plusieurs robots qui effectuent des requetes.
Je ne veux pas bien evidemment empecher GG d'indexer mon site (bien au contraire) mais je suis sur qu'il y a certain robots qui n'apportent rien a mon site.
Je me suis donc dis qu'il faut que je remplisse un peu mieux mon robots.txt , et j'ai regarder celui de WRI pour avoir un exemplet et la surprise, il y en a un nombre enorme!!
Ma question est: puis-je sans souci recopier la liste d'exclusion des user-agents de WRI ou cela risque-t-il de penaliser mon site (qui il faut le dire n'a pas du tout la meme carrure)?
-

mahefarivony - WRInaute accro

- Messages: 11405
- Inscription: Lun Oct 14, 2002 10:00
ça marche ça le robots.txt pour exclure les robots indésirables ? moi j'ai plutot tout mis dans le .htaccess
-

mahefarivony - WRInaute accro

- Messages: 11405
- Inscription: Lun Oct 14, 2002 10:00
Voila ce que j'ai dans mon .htaccess dans la section réservée aux "indésirables" ou à ceux assimilés comme tel
En clair : "si user-agent fait partie de cette liste alors les rediriger vers ... google.com"
A ceux qui se demandent pourquoi j'ai rajouté "Maxthon" c'est tout simplement parce-que j'avais subis un DDOS provenant de ce browser...
- Code: Tout sélectionner
Options +FollowSymlinks
RewriteEngine on
RewriteCond %{HTTP_REFERER} XXX
RewriteCond %{HTTP_USER_AGENT} -?$ [OR]
RewriteCond %{HTTP_USER_AGENT} @nonymouse [OR]
RewriteCond %{HTTP_USER_AGENT} Advanced\ Email\ Extractor [OR]
RewriteCond %{HTTP_USER_AGENT} almaden [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Art-Online [OR]
RewriteCond %{HTTP_USER_AGENT} CherryPicker [OR]
RewriteCond %{HTTP_USER_AGENT} Crescent\ Internet\ ToolPack [OR]
RewriteCond %{HTTP_USER_AGENT} DirectUpdate [OR]
RewriteCond %{HTTP_USER_AGENT} DISCo\ Pump.* [OR]
RewriteCond %{HTTP_USER_AGENT} Download\ Accelerator [OR]
RewriteCond %{HTTP_USER_AGENT} Drip.* [OR]
RewriteCond %{HTTP_USER_AGENT} eCatch.* [OR]
RewriteCond %{HTTP_USER_AGENT} echo\ extense [OR]
RewriteCond %{HTTP_USER_AGENT} EirGrabber.* [OR]
RewriteCond %{HTTP_USER_AGENT} EmailCollector [OR]
RewriteCond %{HTTP_USER_AGENT} EmailWolf [OR]
RewriteCond %{HTTP_USER_AGENT} ExtractorPro.* [OR]
RewriteCond %{HTTP_USER_AGENT} EyeNetIE.* [OR]
RewriteCond %{HTTP_USER_AGENT} FairAd\ Client.* [OR]
RewriteCond %{HTTP_USER_AGENT} Fetch\ API\ Request [OR]
RewriteCond %{HTTP_USER_AGENT} flashget [NC,OR]
RewriteCond %{HTTP_USER_AGENT} FlashGet.* [OR]
RewriteCond %{HTTP_USER_AGENT} frontpage [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Gets.* [OR]
RewriteCond %{HTTP_USER_AGENT} Go!Zilla [OR]
RewriteCond %{HTTP_USER_AGENT} Go-Ahead-Got-It.* [OR]
RewriteCond %{HTTP_USER_AGENT} Grafula.* [OR]
RewriteCond %{HTTP_USER_AGENT} HTTP\ agent [OR]
RewriteCond %{HTTP_USER_AGENT} HTTPConnect [OR]
RewriteCond %{HTTP_USER_AGENT} HTTrack [OR]
RewriteCond %{HTTP_USER_AGENT} ia_archiver.* [OR]
RewriteCond %{HTTP_USER_AGENT} IBrowse.* [OR]
RewriteCond %{HTTP_USER_AGENT} Indy\ Library [OR]
RewriteCond %{HTTP_USER_AGENT} InterGET.* [OR]
RewriteCond %{HTTP_USER_AGENT} Internet\ Ninja.* [OR]
RewriteCond %{HTTP_USER_AGENT} InternetLinkAgent.* [OR]
RewriteCond %{HTTP_USER_AGENT} IPiumBot\ laurion(dot)com [OR]
RewriteCond %{HTTP_USER_AGENT} iwantmy.* [OR]
RewriteCond %{HTTP_USER_AGENT} iwantmyxxx.com.* [OR]
RewriteCond %{HTTP_USER_AGENT} JetCar.* [OR]
RewriteCond %{HTTP_USER_AGENT} JustView.* [OR]
RewriteCond %{HTTP_USER_AGENT} Kapere [OR]
RewriteCond %{HTTP_USER_AGENT} LeechGet.* [OR]
RewriteCond %{HTTP_USER_AGENT} lftp.* [OR]
RewriteCond %{HTTP_USER_AGENT} libwww-perl [OR]
RewriteCond %{HTTP_USER_AGENT} Microsoft\ URL\ Control [OR]
RewriteCond %{HTTP_USER_AGENT} MIDown\ tool.* [OR]
RewriteCond %{HTTP_USER_AGENT} MIIxpc.* [OR]
RewriteCond %{HTTP_USER_AGENT} minibot\ (NaverRobot\ ) [OR]
RewriteCond %{HTTP_USER_AGENT} Mister\ PiX.* [OR]
RewriteCond %{HTTP_USER_AGENT} MSProxy.* [OR]
RewriteCond %{HTTP_USER_AGENT} NearSite.* [OR]
RewriteCond %{HTTP_USER_AGENT} NetSpider.* [OR]
RewriteCond %{HTTP_USER_AGENT} NICErsPRO [OR]
RewriteCond %{HTTP_USER_AGENT} NPBot [OR]
RewriteCond %{HTTP_USER_AGENT} Offline\ Explorer.* [OR]
RewriteCond %{HTTP_USER_AGENT} Offline\ Navigator [OR]
RewriteCond %{HTTP_USER_AGENT} PageGrabber.* [OR]
RewriteCond %{HTTP_USER_AGENT} Papa\ Foto.* [OR]
RewriteCond %{HTTP_USER_AGENT} PlantyNet_WebRo.* [OR]
RewriteCond %{HTTP_USER_AGENT} Pockey.* [OR]
RewriteCond %{HTTP_USER_AGENT} Program\ Shareware [OR]
RewriteCond %{HTTP_USER_AGENT} QuepasaCreep [OR]
RewriteCond %{HTTP_USER_AGENT} ReGet.* [OR]
RewriteCond %{HTTP_USER_AGENT} SilentSurf.* [OR]
RewriteCond %{HTTP_USER_AGENT} SiteMapper [OR]
RewriteCond %{HTTP_USER_AGENT} Slurp.* [OR]
RewriteCond %{HTTP_USER_AGENT} SpaceBison.* [OR]
RewriteCond %{HTTP_USER_AGENT} Star\ Downloader [OR]
RewriteCond %{HTTP_USER_AGENT} SuperHTTP.* [OR]
RewriteCond %{HTTP_USER_AGENT} SurveyBot [OR]
RewriteCond %{HTTP_USER_AGENT} tAkeOut.*
RewriteCond %{HTTP_USER_AGENT} Teleport.* [OR]
RewriteCond %{HTTP_USER_AGENT} Teleport\ Pro [OR]
RewriteCond %{HTTP_USER_AGENT} Telesoft [OR]
RewriteCond %{HTTP_USER_AGENT} TuringOS [OR]
RewriteCond %{HTTP_USER_AGENT} TurnitinBot [OR]
RewriteCond %{HTTP_USER_AGENT} vobsub [NC,OR]
RewriteCond %{HTTP_USER_AGENT} wantmy.* [OR]
RewriteCond %{HTTP_USER_AGENT} Web\ Image\ Collector.* [OR]
RewriteCond %{HTTP_USER_AGENT} Web\ Sucker.* [OR]
RewriteCond %{HTTP_USER_AGENT} WebAuto.* [OR]
RewriteCond %{HTTP_USER_AGENT} webbandit [NC,OR]
RewriteCond %{HTTP_USER_AGENT} WebCapture [OR]
RewriteCond %{HTTP_USER_AGENT} webcollage [OR]
RewriteCond %{HTTP_USER_AGENT} WebCopier.* [OR]
RewriteCond %{HTTP_USER_AGENT} WebDAV [OR]
RewriteCond %{HTTP_USER_AGENT} WebEmailExtractor [OR]
RewriteCond %{HTTP_USER_AGENT} WebFetch.* [OR]
RewriteCond %{HTTP_USER_AGENT} WebReaper.* [OR]
RewriteCond %{HTTP_USER_AGENT} WebSauger.* [OR]
RewriteCond %{HTTP_USER_AGENT} WEBsaver [OR]
RewriteCond %{HTTP_USER_AGENT} Website\ Quester.* [OR]
RewriteCond %{HTTP_USER_AGENT} Webster.* [OR]
RewriteCond %{HTTP_USER_AGENT} WebStripper.* [OR]
RewriteCond %{HTTP_USER_AGENT} WebWhacker.* [OR]
RewriteCond %{HTTP_USER_AGENT} WebZIP [OR]
RewriteCond %{HTTP_USER_AGENT} WebZIP.* [OR]
RewriteCond %{HTTP_USER_AGENT} WFARC.* [OR]
RewriteCond %{HTTP_USER_AGENT} Wget [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Wget.* [OR]
RewriteCond %{HTTP_USER_AGENT} Wysigot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Zeus [OR]
RewriteCond %{HTTP_USER_AGENT} Zeus.*Webster [OR]
RewriteCond %{HTTP_USER_AGENT} ^Maxthon [NC,OR]
RewriteRule ^.*$ http://www.google.com [R,L]
En clair : "si user-agent fait partie de cette liste alors les rediriger vers ... google.com"
A ceux qui se demandent pourquoi j'ai rajouté "Maxthon" c'est tout simplement parce-que j'avais subis un DDOS provenant de ce browser...
Pour compléter la réponse sur l'utilité du fichier robots.txt :
http://fr.wikipedia.org/wiki/Fichier_d' ... des_robots
http://fr.wikipedia.org/wiki/Fichier_d' ... des_robots
Merci pour vos reponse, si j'ai bien compris, l'unique moyen de réelement empêcher ces user-agent de sonder mon site est le htaccess, le robots.txt n'étant pas forcement pris en compte si l'initiateur du robot ne le désire pas.
-

mahefarivony - WRInaute accro

- Messages: 11405
- Inscription: Lun Oct 14, 2002 10:00
Le nec plus ultra c'est de virer automatiquement les gros "gourmands" qui font un peu trop de requetes à la seconde.
C'est possible sur un serveur dédiée (iptables...) mais sur un mutualisé, je vois pas trop comment faire.
C'est possible sur un serveur dédiée (iptables...) mais sur un mutualisé, je vois pas trop comment faire.
9 messages • Page 1 sur 1
Formation recommandée sur ce thème :
Formation Référencement naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.
Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.
Lectures recommandées sur ce thème :
- Robots.txt : Yahoo supporte les options avancées
- Sortie de GoogleStats v2.01
- Déclarer son fichier sitemap dans le fichier robots.txt
- Explications sur le Crawl Caching Proxy de Google
- 2,1% d'utilisateurs de Google Chrome sur WebRankInfo
- Comment gérer simplement les sitemaps de plusieurs sites au même endroit
- Petit changement pour Slurp (le robot de Yahoo)
- Mise à jour de Google Images (Juillet 2006)
- Mise à jour de Google Images (16/04/2006)
- Exalead rejoint le protocole Sitemaps.org
- Plusieurs user-agent dans un même fichier robot ?
- Compteur de visites sans les user-agent des robots
- liste des user agent des robots
- User-agent : QQDownload 1.7
- user agent inconnu
- Ip et user agent google
- User agent : check_http ?
- User agent i-NavFourF ??
- User Agent vide
- User-Agent: Madrileño Disallow:
- user-agent : WinHTTP Robot/1.0
- User-agent: Mediapartners-Google*
- Détection par le user agent?
- Connaissez-vous ce user agent ?
- changer son user agent
Consultez la description détaillée des produits ou services de Google suivants : Google Feed Fetcher
- Logiciel de référencement AgentWebRanking
AgentWebRanking est un logiciel professionnel qui permet d'analyser le positionnement d'un ou plusieurs sites dans plus de 300 moteurs de recherche dans le monde. Vous pouvez ainsi analyser les performances du référencement pour de nombreux mots-clés.
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités




le forum