optimisation robots.txt
16 messages • Page 1 sur 2 • 1, 2
Consultez la formation au référencement naturel Google de WebRankInfo / Ranking Metrics
optimisation robots.txt
Bonjour,
Dans le cadre de l'optimisation aux accès sur mes sites, voilà mon fichier robots.txt
Dans le cadre de l'optimisation aux accès sur mes sites, voilà mon fichier robots.txt
- Code: Tout sélectionner
# debut filtrage
User-agent: *
Disallow: /
User-agent: Googlebot
User-agent: Mediapartners-Google
User-agent: Googlebot-Mobile
User-agent: googlebot-Image
User-agent: ng
User-agent: exabot
User-agent: msnbot
User-agent: Teoma
User-agent: voila
User-agent: Slurp
Disallow: /apropos
Disallow: /contact
Disallow: /soumission*
Disallow: /confirmation*
# fin filtrage
Disallow: /*.pdf
Disallow: /*.doc
Re: optimisation robots.txt
Normalement, ia_archiver (+http://www.alexa.com/site/help/webmasters; crawler@alexa.com) aurait dû comprendre que je ne veut pas de lui sur mon serveur, non ?
-

WebRankInfo - Administrateur du site

- Messages: 15880
- Inscription: Ven Avr 19, 2002 19:51
Re: optimisation robots.txt
as-tu essayé l'outil fourni par Google Webmaster Tools pour analyser ton robots.txt ?
Re: optimisation robots.txt
Oui, mais je me demandais si les autres robots le comprenaient de la même façon. D'autant plus qu'au début, je n'avais pas ajouté correctement Mediapartners et je m'en suis aperçu très rapidement, en voyant que mes adsenses ne s'affichaient plus sur un site, au fur et à mesure des tentatives de crawl.
Sinon, j'ai un nouveau robot de chez microsoft MSR-ISRCCrawler qui ne tient pas compte du robots.txt et essaie de crawler ponctuellement. L'ip appartient bien à microsoft, mais le host renvoyé ne comprend pas microsoft
Heureusement que j'ai d'autres blocages en plus de robots.txt. L'étape suivante va consister à bloquer ces robots ou blocs d'ip directement dans le htaccess, mais d'automatiser cette mise à jour pour tous mes sites via mon interface admin de chaque site.
Sinon, j'ai un nouveau robot de chez microsoft MSR-ISRCCrawler qui ne tient pas compte du robots.txt et essaie de crawler ponctuellement. L'ip appartient bien à microsoft, mais le host renvoyé ne comprend pas microsoft
Heureusement que j'ai d'autres blocages en plus de robots.txt. L'étape suivante va consister à bloquer ces robots ou blocs d'ip directement dans le htaccess, mais d'automatiser cette mise à jour pour tous mes sites via mon interface admin de chaque site.
Re: optimisation robots.txt
Leonick a écrit:Oui, mais je me demandais si les autres robots le comprenaient de la même façon.
L'outil Google est utile, mais il ne montre que l'interprétation du fichier par Google et, comme Google accepte des directives non standard, le diagnostic donné par l'outil n'est pas nécessairement correct pour les autres robots.
Jean-Luc
Re: optimisation robots.txt
On est sur du bon sens des directives ?
Je le demande car il me parait bizarre ce robots.txt
Moi j'ai plutôt ceci chez moi :
Dans ton cas moi j'aurai inversé ceci :
Je ne sais pas si ça à une importance l'ordre. Je me pose donc la question
Je le demande car il me parait bizarre ce robots.txt
# debut filtrage
User-agent: *
Disallow: /
User-agent: Googlebot
User-agent: Mediapartners-Google
User-agent: Googlebot-Mobile
User-agent: googlebot-Image
User-agent: ng
User-agent: exabot
User-agent: msnbot
User-agent: Teoma
User-agent: voila
User-agent: Slurp
Disallow: /apropos
Disallow: /contact
Disallow: /soumission*
Disallow: /confirmation*
# fin filtrage
Disallow: /*.pdf
Disallow: /*.doc
Moi j'ai plutôt ceci chez moi :
# filtrage des User non autorisé sur tout le site
User-agent: Art-Online
User-agent: findlinks
User-agent: psbot
User-agent: onCHECK-Robot
User-agent: NimbleCrawler
User-agent: Krugle
User-agent: voyager
User-agent: cfetch
User-agent: IRLbot
User-agent: MJ12bot
User-agent: NG/2.0
User-agent: e-SocietyRobot
User-agent: baiduspider
User-agent: sohu agent
User-agent: sohu-search
User-agent: sogou spider
User-agent: Vagabondo
User-Agent: psycheclone
User-Agent: SurveyBot/2.3
User-Agent: SBIder/0.8-dev
User-Agent: aipbot/1.0
User-Agent: OmniExplorer_Bot
User-Agent: page-store
User-Agent: twiceler
Disallow: /
# Les autres
User-agent: *
Disallow: /projet_martinique/
Disallow: /images/soirees/
Disallow: /maquette/
Disallow: /paroles/
Disallow: /affiche_concert/
Disallow: /photos_bienvenue/
Dans ton cas moi j'aurai inversé ceci :
# debut filtrage
User-agent: Googlebot
User-agent: Mediapartners-Google
User-agent: Googlebot-Mobile
User-agent: googlebot-Image
User-agent: ng
User-agent: exabot
User-agent: msnbot
User-agent: Teoma
User-agent: voila
User-agent: Slurp
Disallow: /apropos
Disallow: /contact
Disallow: /soumission*
Disallow: /confirmation*
User-agent: *
Disallow: /
# fin filtrage
Disallow: /*.pdf
Disallow: /*.doc
Je ne sais pas si ça à une importance l'ordre. Je me pose donc la question
Re: optimisation robots.txt
Tes exemples 1 et 2 sont équivalents. L'ordre des interdictions n'a pas d'importance.
Ton exemple 3 n'est pas correct: la ligne vide avant le commentaire # fin filtrage n'est pas autorisée, car elle se trouve à l'intérieur d'une série d'interdictions.
Jean-Luc
Ton exemple 3 n'est pas correct: la ligne vide avant le commentaire # fin filtrage n'est pas autorisée, car elle se trouve à l'intérieur d'une série d'interdictions.
Jean-Luc
Re: optimisation robots.txt
@ Leonick
Tu as eu l'idee de faire ce test à partir de ce post, ( http://forum.webrankinfo.com/robots-txt-sitemap-est-qui-qui-gagne-t109815.html ) ou c'est une coincidence ?
Tu as eu l'idee de faire ce test à partir de ce post, ( http://forum.webrankinfo.com/robots-txt-sitemap-est-qui-qui-gagne-t109815.html ) ou c'est une coincidence ?
Re: optimisation robots.txt
mon post date de 2 mois auparavantGUITEL a écrit:@ Leonick
Tu as eu l'idee de faire ce test à partir de ce post, ( http://forum.webrankinfo.com/robots-txt-sitemap-est-qui-qui-gagne-t109815.html ) ou c'est une coincidence ?
Re: optimisation robots.txt
jeanluc a écrit:Tes exemples 1 et 2 sont équivalents. L'ordre des interdictions n'a pas d'importance.
Ton exemple 3 n'est pas correct: la ligne vide avant le commentaire # fin filtrage n'est pas autorisée, car elle se trouve à l'intérieur d'une série d'interdictions.
Jean-Luc
Merci Jeanluc, donc si je retire la ligne vide en question l'exemple 3 deviendrait correct ?
En tout cas si les 2 premiers sont équivalents c'est tant mieux
16 messages • Page 1 sur 2 • 1, 2
Formation recommandée sur ce thème :
Formation Référencement naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.
Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.
Lectures recommandées sur ce thème :
- Sortie de GoogleStats v2.01
- Explications sur le Crawl Caching Proxy de Google
- Les crawlers de Yahoo!
- Les robots MSNbot de Live Search
- Déclarer son fichier sitemap dans le fichier robots.txt
- Petit changement pour Slurp (le robot de Yahoo)
- Optimiser le nombre de mots dans les textes de liens
- Robots.txt : Yahoo supporte les options avancées
- La balise meta NOYDIR de Yahoo
- Ranking Metrics lance son blog
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités





le forum