Robots.txt vs sitemap : c'est qui qui gagne ?...

Consultez la formation au référencement naturel Google de WebRankInfo / Ranking Metrics


cedric_g
WRInaute accro
WRInaute accro
 
Messages: 2028
Inscription: Mer Jan 18, 2006 16:26

Robots.txt vs sitemap : c'est qui qui gagne ?...

Message le Mar Avr 14, 2009 12:51

Bonjour


Sous ce titre pour le moins foireux, une question, qui ne se pose pas sur mes sites (car généralement je m'arrange pour que les URL du sitemap ne soient pas filtrées par le robots.txt, et vice versa) mais sur le site d'une connaissance, qui avait généré son sitemap avec un outil en ligne.

Elle se retrouve donc avec des pages qui sont en théorie filtrées par le robots.txt (interdiction à tous les robots) mais qui figurent aussi dans le sitemap.

J'aurais cru pour ma part que le robots.txt "remportait" dans ce cas le suffrage, mais ce n'est pas le cas : les pages en question ont été indexées :roll:

Au-delà de la maladresse avérée du webmaster, cela signifie finalement qu'un sitemap, pour Google en tout cas, est la "vérité absolue" concernant les pages à indexer, furent-elles interdites dans le robots.txt ! Ou alors que Google pèche par excès si j'ose dire, prenant en compte le plus grand nombre possible d'URL !

Qu'en pensez-vous ?


serval2a
WRInaute accro
WRInaute accro
 
Messages: 3453
Inscription: Lun Mar 21, 2005 18:17

Re: Robots.txt vs sitemap : c'est qui qui gagne ?...

Message le Mar Avr 14, 2009 12:57

Que c'est édifiant car effectivement le robots.txt devrait l'emporter, merci pour l'info en tout cas.
Tu peux nous donner l'URL du site et du sitemap ?
@+


aladdin
WRInaute passionné
WRInaute passionné
 
Messages: 925
Inscription: Ven Avr 29, 2005 12:26

Re: Robots.txt vs sitemap : c'est qui qui gagne ?...

Message le Mar Avr 14, 2009 14:20

perso je ne fais pas confiance dans le robots.txt
je gère les interdictions dans mon .htaccess avec une redirection vers la page d'accueil ou vers une page d'erreur 404.

Par définition il ne faut jamais (JAMAIS JAMAIS) faire confiance aux parties tierces (en l'occurrence les robots), ils sont supposé respecter des normes ... mais rien ne les empêche de passer outre.

le pire que j'ai vu, ce sont des gens qui interdisent le référencement de certaines pages avec robots.txt pour mieux "sécuriser" leurs sites ... sauf que par la même occasion ils donnent les chemins des dossiers sensibles de leurs sites. n'oubliez pas que le robots.txt est consultable par n'importe qui !


Raspailloux
WRInaute impliqué
WRInaute impliqué
 
Messages: 380
Inscription: Jeu Fév 19, 2009 18:41

Re: Robots.txt vs sitemap : c'est qui qui gagne ?...

Message le Mar Avr 14, 2009 15:54

Bah moi je te dis le contraire :s

Petite surprise ce matin, j'ai eu des erreurs de sitemap dans mon interface google outils pour les webmaster qui sont dues au robots.txt

Je suis vite allé corrigé ça ^^' forcément faut pas dire dans le sitemap à Google de look une page qu'on restreint :D

:roll:

générateur de sitemap à la noix :D je regarderais mieux la prochaine fois ^^

Donc je sais pas trop :s


aladdin
WRInaute passionné
WRInaute passionné
 
Messages: 925
Inscription: Ven Avr 29, 2005 12:26

Re: Robots.txt vs sitemap : c'est qui qui gagne ?...

Message le Mar Avr 14, 2009 16:01

non mais ce que je veux dire, c'est que le robots.txt n'interdit pas l'accès à une page, il dit juste au robot "s'il te plais va pas voir cette page" ... un spambot commencera par cette page bien évidement .

d'où l'intérêt de limiter l'accès via .htaccess au moins on est sure


raljx
WRInaute accro
WRInaute accro
 
Messages: 2253
Inscription: Lun Juil 10, 2006 16:46

Re: Robots.txt vs sitemap : c'est qui qui gagne ?...

Message le Mar Avr 14, 2009 16:37

ouais et puis apres y'a aussi toujours les XXX extensions FF qu'on installe , les toolbars, les scripts de stats... tout ce petit mondequi de toute maniere ammene les bots ou autres a connaitre les différentes URL d'un site propriétaire ...


aladdin
WRInaute passionné
WRInaute passionné
 
Messages: 925
Inscription: Ven Avr 29, 2005 12:26

Re: Robots.txt vs sitemap : c'est qui qui gagne ?...

Message le Mar Avr 14, 2009 16:58

exemple concret vu sur le site web .

voici ce qu'on lit entre autres dans le fichier robots.txt
Code: Tout sélectionner
User-agent: *
Crawl-delay: 10
# Directories
Disallow: /include/
Disallow: /sql_scripts/
Disallow: /users/
...


aucun des ces dossiers n'est protégé par htaccess, ni meme par une page d'index vide.
le dossier sql_scripts contient des fichiers .sql définissant dans les moindres details la structure de la base de données.
le dossier include contient des fichiers php avec une extension .inc donc le code est visible aussi via le navigateur ... bref tout pour pirater le site en deux minutes ...

c'est de ce genre d'erreur que je parle ;)


(bien entendu le webmaster a été prévenu et a mis en place les protections nécessaires)


Raspailloux
WRInaute impliqué
WRInaute impliqué
 
Messages: 380
Inscription: Jeu Fév 19, 2009 18:41

Re: Robots.txt vs sitemap : c'est qui qui gagne ?...

Message le Mar Avr 14, 2009 17:04

sert à quedal robots.txt alors? :|


aurelien59
WRInaute passionné
WRInaute passionné
 
Messages: 684
Inscription: Mar Juil 25, 2006 19:19

Re: Robots.txt vs sitemap : c'est qui qui gagne ?...

Message le Mar Avr 14, 2009 17:12

Moi mon robots.txt ne sert juste à indiquer... le sitemap !

Code: Tout sélectionner
Sitemap: http://www.siteweb.com/sitemap.xml


cedric_g
WRInaute accro
WRInaute accro
 
Messages: 2028
Inscription: Mer Jan 18, 2006 16:26

Re: Robots.txt vs sitemap : c'est qui qui gagne ?...

Message le Jeu Avr 23, 2009 22:17

Up !

Cas concret : une boutique en ligne, -http://www.mastermateriel.com

Il y a un grand nombre de pages "cart.php?id=..." (avec n° de token ce qui est illogique d'ailleurs) présentes dans l'index Google, alors que :
* le robots.txt en interdit l'accès aux robots
* les pages ne figurent pas dans le sitemap (encore heureux !)
* elles sont systématiquement en "noindex,follow" au niveau de la balise META robots
* les liens y menant sont en "nofollow"

Je sais plus quoi faire :mrgreen:

Bon, à contrario elles ne ressortent jamais dans les SERP et les GWT me les donnent comme "pages inaccessibles bloquées par le robots.txt". Mais quand je fais une recherche sur "site:www.mastermateriel.com cart" et bien elles ressortent.

Normal, doc ?


Monty973
WRInaute accro
WRInaute accro
 
Messages: 1614
Inscription: Mar Mar 21, 2006 4:52

Re: Robots.txt vs sitemap : c'est qui qui gagne ?...

Message le Jeu Avr 23, 2009 23:05

cedric_g a écrit:* les liens y menant sont en "nofollow"


Ca n'a jamais empêché une URL d'être crawlée.

http://www.google.com/search?q=site:mastermateriel.com+cart&hl=fr&lr=& ... 0&filter=0

http://www.google.com/support/webmasters/bin/answer.py?answer=35667

Elles ont été recrawlées tes pages depuis qu'il y a une balise NOINDEX ?


cedric_g
WRInaute accro
WRInaute accro
 
Messages: 2028
Inscription: Mer Jan 18, 2006 16:26

Re: Robots.txt vs sitemap : c'est qui qui gagne ?...

Message le Ven Avr 24, 2009 9:30

Je sais bien (pour le nofollow) mais bon.

Faut que j'épluche mes logs (j'aime pas ça...)


GUITEL
WRInaute passionné
WRInaute passionné
 
Messages: 557
Inscription: Ven Juin 08, 2007 8:57

Re: Robots.txt vs sitemap : c'est qui qui gagne ?...

Message le Ven Avr 24, 2009 9:52

cedric_g a écrit:Bonjour


Sous ce titre pour le moins foireux, une question, qui ne se pose pas sur mes sites (car généralement je m'arrange pour que les URL du sitemap ne soient pas filtrées par le robots.txt, et vice versa) mais sur le site d'une connaissance, qui avait généré son sitemap avec un outil en ligne.

Elle se retrouve donc avec des pages qui sont en théorie filtrées par le robots.txt (interdiction à tous les robots) mais qui figurent aussi dans le sitemap.

J'aurais cru pour ma part que le robots.txt "remportait" dans ce cas le suffrage, mais ce n'est pas le cas : les pages en question ont été indexées :roll:

Au-delà de la maladresse avérée du webmaster, cela signifie finalement qu'un sitemap, pour Google en tout cas, est la "vérité absolue" concernant les pages à indexer, furent-elles interdites dans le robots.txt ! Ou alors que Google pèche par excès si j'ose dire, prenant en compte le plus grand nombre possible d'URL !

Qu'en pensez-vous ?


En fait si on lit le A propos du Robot.txt chez GG tools

Même si le contenu des pages bloquées par le fichier robots.txt n'est ni exploré ni indexé, il est possible que nous indexions les URL de ces pages si nous les rencontrons sur d'autres sites Web. Cela signifie que l'URL de la page et éventuellement d'autres informations accessibles au public, notamment le texte ancré des liens qui pointent vers le site ou le titre créé par l'Open Directory Project,(http://www.dmoz.org), peuvent apparaître dans les résultats de recherche Google. Toutefois, le contenu de vos pages ne sera ni exploré, ni indexé, ni affiché.

Donc niveau indexation par le robot ça ne bloque pas forcément URL et de surcroit il génère un sitemap pour l'indexer.

De là, je ne vois pas d'incohérence ?


Leonick
WRInaute accro
WRInaute accro
 
Messages: 12373
Inscription: Dim Aoû 08, 2004 20:24

Re: Robots.txt vs sitemap : c'est qui qui gagne ?...

Message le Jeu Avr 30, 2009 12:16

c'est bizarre, car pour moi, j'ai des avertissements au niveau de GWT quand j'ai des liens dans le sitemap qui sont bloqués par robots.txt


Raspailloux
WRInaute impliqué
WRInaute impliqué
 
Messages: 380
Inscription: Jeu Fév 19, 2009 18:41

Re: Robots.txt vs sitemap : c'est qui qui gagne ?...

Message le Jeu Avr 30, 2009 12:49

Leonick a écrit:c'est bizarre, car pour moi, j'ai des avertissements au niveau de GWT quand j'ai des liens dans le sitemap qui sont bloqués par robots.txt


idem :|

Robots.txt vs sitemap : c'est qui qui gagne ?...

Formation recommandée sur ce thème :

Formation Référencement naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.

Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.

Lectures recommandées sur ce thème :



Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités