Optimisation robots.txt

WRInaute accro
Bonjour,

Dans le cadre de l'optimisation aux accès sur mes sites, voilà mon fichier robots.txt
Code:
# debut filtrage
User-agent: *
Disallow: /

User-agent: Googlebot
User-agent: Mediapartners-Google
User-agent: Googlebot-Mobile
User-agent: googlebot-Image
User-agent: ng
User-agent: exabot
User-agent: msnbot
User-agent: Teoma
User-agent: voila
User-agent: Slurp
Disallow: /apropos
Disallow: /contact
Disallow: /soumission*
Disallow: /confirmation*
# fin filtrage 
Disallow: /*.pdf
Disallow: /*.doc
Est-ce que ce robots.txt est bien sensé ne pas permettre l'accès à tous les robots sauf ceux dans la liste ?
 
WRInaute accro
Exact.

Mais il vaudrait mieux supprimer les deux * en fin de ligne devant # fin filtrage. C'est non standard et cela ne sera pas compris par certains robots.

Jean-Luc
 
WRInaute accro
si j'enlève le * à soumettre, tous les robots (autorisés) vont bien comprendre qu'il ne faut pas indexer soumettre_cat1, soumettre_cat2, etc... ?
 
WRInaute accro
Oui, mais je me demandais si les autres robots le comprenaient de la même façon. D'autant plus qu'au début, je n'avais pas ajouté correctement Mediapartners et je m'en suis aperçu très rapidement, en voyant que mes adsenses ne s'affichaient plus sur un site, au fur et à mesure des tentatives de crawl.

Sinon, j'ai un nouveau robot de chez microsoft MSR-ISRCCrawler qui ne tient pas compte du robots.txt et essaie de crawler ponctuellement. L'ip appartient bien à microsoft, mais le host renvoyé ne comprend pas microsoft

Heureusement que j'ai d'autres blocages en plus de robots.txt. L'étape suivante va consister à bloquer ces robots ou blocs d'ip directement dans le htaccess, mais d'automatiser cette mise à jour pour tous mes sites via mon interface admin de chaque site.
 
WRInaute accro
Leonick a dit:
Oui, mais je me demandais si les autres robots le comprenaient de la même façon.
L'outil Google est utile, mais il ne montre que l'interprétation du fichier par Google et, comme Google accepte des directives non standard, le diagnostic donné par l'outil n'est pas nécessairement correct pour les autres robots.

Jean-Luc
 
WRInaute occasionnel
On est sur du bon sens des directives ?
Je le demande car il me parait bizarre ce robots.txt

# debut filtrage
User-agent: *
Disallow: /

User-agent: Googlebot
User-agent: Mediapartners-Google
User-agent: Googlebot-Mobile
User-agent: googlebot-Image
User-agent: ng
User-agent: exabot
User-agent: msnbot
User-agent: Teoma
User-agent: voila
User-agent: Slurp
Disallow: /apropos
Disallow: /contact
Disallow: /soumission*
Disallow: /confirmation*
# fin filtrage
Disallow: /*.pdf
Disallow: /*.doc

Moi j'ai plutôt ceci chez moi :

# filtrage des User non autorisé sur tout le site
User-agent: Art-Online
User-agent: findlinks
User-agent: psbot
User-agent: onCHECK-Robot
User-agent: NimbleCrawler
User-agent: Krugle
User-agent: voyager
User-agent: cfetch
User-agent: IRLbot
User-agent: MJ12bot
User-agent: NG/2.0
User-agent: e-SocietyRobot
User-agent: baiduspider
User-agent: sohu agent
User-agent: sohu-search
User-agent: sogou spider
User-agent: Vagabondo
User-Agent: psycheclone
User-Agent: SurveyBot/2.3
User-Agent: SBIder/0.8-dev
User-Agent: aipbot/1.0
User-Agent: OmniExplorer_Bot
User-Agent: page-store
User-Agent: twiceler
Disallow: /

# Les autres
User-agent: *
Disallow: /projet_martinique/
Disallow: /images/soirees/
Disallow: /maquette/
Disallow: /paroles/
Disallow: /affiche_concert/
Disallow: /photos_bienvenue/

Dans ton cas moi j'aurai inversé ceci :

# debut filtrage
User-agent: Googlebot
User-agent: Mediapartners-Google
User-agent: Googlebot-Mobile
User-agent: googlebot-Image
User-agent: ng
User-agent: exabot
User-agent: msnbot
User-agent: Teoma
User-agent: voila
User-agent: Slurp
Disallow: /apropos
Disallow: /contact
Disallow: /soumission*
Disallow: /confirmation*

User-agent: *
Disallow: /

# fin filtrage
Disallow: /*.pdf
Disallow: /*.doc

Je ne sais pas si ça à une importance l'ordre. Je me pose donc la question 8)
 
WRInaute accro
Tes exemples 1 et 2 sont équivalents. L'ordre des interdictions n'a pas d'importance.

Ton exemple 3 n'est pas correct: la ligne vide avant le commentaire # fin filtrage n'est pas autorisée, car elle se trouve à l'intérieur d'une série d'interdictions.

Jean-Luc
 
WRInaute occasionnel
jeanluc a dit:
Tes exemples 1 et 2 sont équivalents. L'ordre des interdictions n'a pas d'importance.

Ton exemple 3 n'est pas correct: la ligne vide avant le commentaire # fin filtrage n'est pas autorisée, car elle se trouve à l'intérieur d'une série d'interdictions.

Jean-Luc

Merci Jeanluc, donc si je retire la ligne vide en question l'exemple 3 deviendrait correct ?

En tout cas si les 2 premiers sont équivalents c'est tant mieux :D
 
Discussions similaires
Haut