fichier robots.txt et user-agent
Règles du forum
Attention ce forum est destiné avant tout à ceux qui découvrent le référencement. Les membres qui auront l'amabilité de répondre à leurs questions sont priés de rester courtois, polis, indulgents, patients et pédagogues... Merci d'avance !
Par ailleurs, inutile d'utiliser ce forum uniquement pour obtenir des liens vers vos sites, les liens sont désactivés pour le référencement (nofollow).
Attention ce forum est destiné avant tout à ceux qui découvrent le référencement. Les membres qui auront l'amabilité de répondre à leurs questions sont priés de rester courtois, polis, indulgents, patients et pédagogues... Merci d'avance !
Par ailleurs, inutile d'utiliser ce forum uniquement pour obtenir des liens vers vos sites, les liens sont désactivés pour le référencement (nofollow).
9 messages
• Page 1 sur 1
Consultez la formation au REFERENCEMENT naturel Google de WebRankInfo / Ranking Metrics
- bastos5
- WRInaute discret

- Messages: 65
- Inscription: 19 Oct 2007
fichier robots.txt et user-agent
Bonjour a tous,
En regardant les logs de mon serveur , je constate qu'il y a plusieurs robots qui effectuent des requetes.
Je ne veux pas bien evidemment empecher GG d'indexer mon site (bien au contraire) mais je suis sur qu'il y a certain robots qui n'apportent rien a mon site.
Je me suis donc dis qu'il faut que je remplisse un peu mieux mon robots.txt , et j'ai regarder celui de WRI pour avoir un exemplet et la surprise, il y en a un nombre enorme!!
Ma question est: puis-je sans souci recopier la liste d'exclusion des user-agents de WRI ou cela risque-t-il de penaliser mon site (qui il faut le dire n'a pas du tout la meme carrure)?
En regardant les logs de mon serveur , je constate qu'il y a plusieurs robots qui effectuent des requetes.
Je ne veux pas bien evidemment empecher GG d'indexer mon site (bien au contraire) mais je suis sur qu'il y a certain robots qui n'apportent rien a mon site.
Je me suis donc dis qu'il faut que je remplisse un peu mieux mon robots.txt , et j'ai regarder celui de WRI pour avoir un exemplet et la surprise, il y en a un nombre enorme!!
Ma question est: puis-je sans souci recopier la liste d'exclusion des user-agents de WRI ou cela risque-t-il de penaliser mon site (qui il faut le dire n'a pas du tout la meme carrure)?
-

mahefarivony - WRInaute accro

- Messages: 11405
- Inscription: 14 Oct 2002
ça marche ça le robots.txt pour exclure les robots indésirables ? moi j'ai plutot tout mis dans le .htaccess
-

mahefarivony - WRInaute accro

- Messages: 11405
- Inscription: 14 Oct 2002
Voila ce que j'ai dans mon .htaccess dans la section réservée aux "indésirables" ou à ceux assimilés comme tel
En clair : "si user-agent fait partie de cette liste alors les rediriger vers ... google.com"
A ceux qui se demandent pourquoi j'ai rajouté "Maxthon" c'est tout simplement parce-que j'avais subis un DDOS provenant de ce browser...
- Code: Tout sélectionner
Options +FollowSymlinks
RewriteEngine on
RewriteCond %{HTTP_REFERER} XXX
RewriteCond %{HTTP_USER_AGENT} -?$ [OR]
RewriteCond %{HTTP_USER_AGENT} @nonymouse [OR]
RewriteCond %{HTTP_USER_AGENT} Advanced\ Email\ Extractor [OR]
RewriteCond %{HTTP_USER_AGENT} almaden [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Art-Online [OR]
RewriteCond %{HTTP_USER_AGENT} CherryPicker [OR]
RewriteCond %{HTTP_USER_AGENT} Crescent\ Internet\ ToolPack [OR]
RewriteCond %{HTTP_USER_AGENT} DirectUpdate [OR]
RewriteCond %{HTTP_USER_AGENT} DISCo\ Pump.* [OR]
RewriteCond %{HTTP_USER_AGENT} Download\ Accelerator [OR]
RewriteCond %{HTTP_USER_AGENT} Drip.* [OR]
RewriteCond %{HTTP_USER_AGENT} eCatch.* [OR]
RewriteCond %{HTTP_USER_AGENT} echo\ extense [OR]
RewriteCond %{HTTP_USER_AGENT} EirGrabber.* [OR]
RewriteCond %{HTTP_USER_AGENT} EmailCollector [OR]
RewriteCond %{HTTP_USER_AGENT} EmailWolf [OR]
RewriteCond %{HTTP_USER_AGENT} ExtractorPro.* [OR]
RewriteCond %{HTTP_USER_AGENT} EyeNetIE.* [OR]
RewriteCond %{HTTP_USER_AGENT} FairAd\ Client.* [OR]
RewriteCond %{HTTP_USER_AGENT} Fetch\ API\ Request [OR]
RewriteCond %{HTTP_USER_AGENT} flashget [NC,OR]
RewriteCond %{HTTP_USER_AGENT} FlashGet.* [OR]
RewriteCond %{HTTP_USER_AGENT} frontpage [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Gets.* [OR]
RewriteCond %{HTTP_USER_AGENT} Go!Zilla [OR]
RewriteCond %{HTTP_USER_AGENT} Go-Ahead-Got-It.* [OR]
RewriteCond %{HTTP_USER_AGENT} Grafula.* [OR]
RewriteCond %{HTTP_USER_AGENT} HTTP\ agent [OR]
RewriteCond %{HTTP_USER_AGENT} HTTPConnect [OR]
RewriteCond %{HTTP_USER_AGENT} HTTrack [OR]
RewriteCond %{HTTP_USER_AGENT} ia_archiver.* [OR]
RewriteCond %{HTTP_USER_AGENT} IBrowse.* [OR]
RewriteCond %{HTTP_USER_AGENT} Indy\ Library [OR]
RewriteCond %{HTTP_USER_AGENT} InterGET.* [OR]
RewriteCond %{HTTP_USER_AGENT} Internet\ Ninja.* [OR]
RewriteCond %{HTTP_USER_AGENT} InternetLinkAgent.* [OR]
RewriteCond %{HTTP_USER_AGENT} IPiumBot\ laurion(dot)com [OR]
RewriteCond %{HTTP_USER_AGENT} iwantmy.* [OR]
RewriteCond %{HTTP_USER_AGENT} iwantmyxxx.com.* [OR]
RewriteCond %{HTTP_USER_AGENT} JetCar.* [OR]
RewriteCond %{HTTP_USER_AGENT} JustView.* [OR]
RewriteCond %{HTTP_USER_AGENT} Kapere [OR]
RewriteCond %{HTTP_USER_AGENT} LeechGet.* [OR]
RewriteCond %{HTTP_USER_AGENT} lftp.* [OR]
RewriteCond %{HTTP_USER_AGENT} libwww-perl [OR]
RewriteCond %{HTTP_USER_AGENT} Microsoft\ URL\ Control [OR]
RewriteCond %{HTTP_USER_AGENT} MIDown\ tool.* [OR]
RewriteCond %{HTTP_USER_AGENT} MIIxpc.* [OR]
RewriteCond %{HTTP_USER_AGENT} minibot\ (NaverRobot\ ) [OR]
RewriteCond %{HTTP_USER_AGENT} Mister\ PiX.* [OR]
RewriteCond %{HTTP_USER_AGENT} MSProxy.* [OR]
RewriteCond %{HTTP_USER_AGENT} NearSite.* [OR]
RewriteCond %{HTTP_USER_AGENT} NetSpider.* [OR]
RewriteCond %{HTTP_USER_AGENT} NICErsPRO [OR]
RewriteCond %{HTTP_USER_AGENT} NPBot [OR]
RewriteCond %{HTTP_USER_AGENT} Offline\ Explorer.* [OR]
RewriteCond %{HTTP_USER_AGENT} Offline\ Navigator [OR]
RewriteCond %{HTTP_USER_AGENT} PageGrabber.* [OR]
RewriteCond %{HTTP_USER_AGENT} Papa\ Foto.* [OR]
RewriteCond %{HTTP_USER_AGENT} PlantyNet_WebRo.* [OR]
RewriteCond %{HTTP_USER_AGENT} Pockey.* [OR]
RewriteCond %{HTTP_USER_AGENT} Program\ Shareware [OR]
RewriteCond %{HTTP_USER_AGENT} QuepasaCreep [OR]
RewriteCond %{HTTP_USER_AGENT} ReGet.* [OR]
RewriteCond %{HTTP_USER_AGENT} SilentSurf.* [OR]
RewriteCond %{HTTP_USER_AGENT} SiteMapper [OR]
RewriteCond %{HTTP_USER_AGENT} Slurp.* [OR]
RewriteCond %{HTTP_USER_AGENT} SpaceBison.* [OR]
RewriteCond %{HTTP_USER_AGENT} Star\ Downloader [OR]
RewriteCond %{HTTP_USER_AGENT} SuperHTTP.* [OR]
RewriteCond %{HTTP_USER_AGENT} SurveyBot [OR]
RewriteCond %{HTTP_USER_AGENT} tAkeOut.*
RewriteCond %{HTTP_USER_AGENT} Teleport.* [OR]
RewriteCond %{HTTP_USER_AGENT} Teleport\ Pro [OR]
RewriteCond %{HTTP_USER_AGENT} Telesoft [OR]
RewriteCond %{HTTP_USER_AGENT} TuringOS [OR]
RewriteCond %{HTTP_USER_AGENT} TurnitinBot [OR]
RewriteCond %{HTTP_USER_AGENT} vobsub [NC,OR]
RewriteCond %{HTTP_USER_AGENT} wantmy.* [OR]
RewriteCond %{HTTP_USER_AGENT} Web\ Image\ Collector.* [OR]
RewriteCond %{HTTP_USER_AGENT} Web\ Sucker.* [OR]
RewriteCond %{HTTP_USER_AGENT} WebAuto.* [OR]
RewriteCond %{HTTP_USER_AGENT} webbandit [NC,OR]
RewriteCond %{HTTP_USER_AGENT} WebCapture [OR]
RewriteCond %{HTTP_USER_AGENT} webcollage [OR]
RewriteCond %{HTTP_USER_AGENT} WebCopier.* [OR]
RewriteCond %{HTTP_USER_AGENT} WebDAV [OR]
RewriteCond %{HTTP_USER_AGENT} WebEmailExtractor [OR]
RewriteCond %{HTTP_USER_AGENT} WebFetch.* [OR]
RewriteCond %{HTTP_USER_AGENT} WebReaper.* [OR]
RewriteCond %{HTTP_USER_AGENT} WebSauger.* [OR]
RewriteCond %{HTTP_USER_AGENT} WEBsaver [OR]
RewriteCond %{HTTP_USER_AGENT} Website\ Quester.* [OR]
RewriteCond %{HTTP_USER_AGENT} Webster.* [OR]
RewriteCond %{HTTP_USER_AGENT} WebStripper.* [OR]
RewriteCond %{HTTP_USER_AGENT} WebWhacker.* [OR]
RewriteCond %{HTTP_USER_AGENT} WebZIP [OR]
RewriteCond %{HTTP_USER_AGENT} WebZIP.* [OR]
RewriteCond %{HTTP_USER_AGENT} WFARC.* [OR]
RewriteCond %{HTTP_USER_AGENT} Wget [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Wget.* [OR]
RewriteCond %{HTTP_USER_AGENT} Wysigot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Zeus [OR]
RewriteCond %{HTTP_USER_AGENT} Zeus.*Webster [OR]
RewriteCond %{HTTP_USER_AGENT} ^Maxthon [NC,OR]
RewriteRule ^.*$ http://www.google.com [R,L]
En clair : "si user-agent fait partie de cette liste alors les rediriger vers ... google.com"
A ceux qui se demandent pourquoi j'ai rajouté "Maxthon" c'est tout simplement parce-que j'avais subis un DDOS provenant de ce browser...
- CS76
- WRInaute discret

- Messages: 91
- Inscription: 20 Oct 2003
Pour compléter la réponse sur l'utilité du fichier robots.txt :
http://fr.wikipedia.org/wiki/Fichier_d' ... des_robots
http://fr.wikipedia.org/wiki/Fichier_d' ... des_robots
-

mahefarivony - WRInaute accro

- Messages: 11405
- Inscription: 14 Oct 2002
Le nec plus ultra c'est de virer automatiquement les gros "gourmands" qui font un peu trop de requetes à la seconde.
C'est possible sur un serveur dédiée (iptables...) mais sur un mutualisé, je vois pas trop comment faire.
C'est possible sur un serveur dédiée (iptables...) mais sur un mutualisé, je vois pas trop comment faire.
9 messages
• Page 1 sur 1
Formation recommandée sur ce thème :
Formation REFERENCEMENT naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.
Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.
Lectures recommandées sur ce thème :
- Plusieurs user-agent dans un même fichier robot ?
- Compteur de visites sans les user-agent des robots
- liste des user agent des robots
- User-agent : QQDownload 1.7
- user agent inconnu
- Ip et user agent google
- User agent : check_http ?
- User agent i-NavFourF ??
- User Agent vide
- Logiciel ranking et User agent
- Robots.txt : Yahoo supporte les options avancées
- Sortie de GoogleStats v2.01
- Déclarer son fichier sitemap dans le fichier robots.txt
- Explications sur le Crawl Caching Proxy de Google
- 2,1% d'utilisateurs de Google Chrome sur WebRankInfo
- Comment gérer simplement les sitemaps de plusieurs sites au même endroit
- Petit changement pour Slurp (le robot de Yahoo)
Consultez la description détaillée des produits ou services de Google suivants : Google Feed Fetcher
- Logiciel de référencement AgentWebRanking
AgentWebRanking est un logiciel professionnel qui permet d'analyser le positionnement d'un ou plusieurs sites dans plus de 300 moteurs de recherche dans le monde. Vous pouvez ainsi analyser les performances du référencement pour de nombreux mots-clés.
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités


