Robots.txt vs sitemap : c'est qui qui gagne ?...
20 messages • Page 1 sur 2 • 1, 2
Consultez la formation au référencement naturel Google de WebRankInfo / Ranking Metrics
Robots.txt vs sitemap : c'est qui qui gagne ?...
Bonjour
Sous ce titre pour le moins foireux, une question, qui ne se pose pas sur mes sites (car généralement je m'arrange pour que les URL du sitemap ne soient pas filtrées par le robots.txt, et vice versa) mais sur le site d'une connaissance, qui avait généré son sitemap avec un outil en ligne.
Elle se retrouve donc avec des pages qui sont en théorie filtrées par le robots.txt (interdiction à tous les robots) mais qui figurent aussi dans le sitemap.
J'aurais cru pour ma part que le robots.txt "remportait" dans ce cas le suffrage, mais ce n'est pas le cas : les pages en question ont été indexées
Au-delà de la maladresse avérée du webmaster, cela signifie finalement qu'un sitemap, pour Google en tout cas, est la "vérité absolue" concernant les pages à indexer, furent-elles interdites dans le robots.txt ! Ou alors que Google pèche par excès si j'ose dire, prenant en compte le plus grand nombre possible d'URL !
Qu'en pensez-vous ?
Sous ce titre pour le moins foireux, une question, qui ne se pose pas sur mes sites (car généralement je m'arrange pour que les URL du sitemap ne soient pas filtrées par le robots.txt, et vice versa) mais sur le site d'une connaissance, qui avait généré son sitemap avec un outil en ligne.
Elle se retrouve donc avec des pages qui sont en théorie filtrées par le robots.txt (interdiction à tous les robots) mais qui figurent aussi dans le sitemap.
J'aurais cru pour ma part que le robots.txt "remportait" dans ce cas le suffrage, mais ce n'est pas le cas : les pages en question ont été indexées
Au-delà de la maladresse avérée du webmaster, cela signifie finalement qu'un sitemap, pour Google en tout cas, est la "vérité absolue" concernant les pages à indexer, furent-elles interdites dans le robots.txt ! Ou alors que Google pèche par excès si j'ose dire, prenant en compte le plus grand nombre possible d'URL !
Qu'en pensez-vous ?
Re: Robots.txt vs sitemap : c'est qui qui gagne ?...
perso je ne fais pas confiance dans le robots.txt
je gère les interdictions dans mon .htaccess avec une redirection vers la page d'accueil ou vers une page d'erreur 404.
Par définition il ne faut jamais (JAMAIS JAMAIS) faire confiance aux parties tierces (en l'occurrence les robots), ils sont supposé respecter des normes ... mais rien ne les empêche de passer outre.
le pire que j'ai vu, ce sont des gens qui interdisent le référencement de certaines pages avec robots.txt pour mieux "sécuriser" leurs sites ... sauf que par la même occasion ils donnent les chemins des dossiers sensibles de leurs sites. n'oubliez pas que le robots.txt est consultable par n'importe qui !
je gère les interdictions dans mon .htaccess avec une redirection vers la page d'accueil ou vers une page d'erreur 404.
Par définition il ne faut jamais (JAMAIS JAMAIS) faire confiance aux parties tierces (en l'occurrence les robots), ils sont supposé respecter des normes ... mais rien ne les empêche de passer outre.
le pire que j'ai vu, ce sont des gens qui interdisent le référencement de certaines pages avec robots.txt pour mieux "sécuriser" leurs sites ... sauf que par la même occasion ils donnent les chemins des dossiers sensibles de leurs sites. n'oubliez pas que le robots.txt est consultable par n'importe qui !
-

Raspailloux - WRInaute impliqué

- Messages: 380
- Inscription: Jeu Fév 19, 2009 18:41
Re: Robots.txt vs sitemap : c'est qui qui gagne ?...
Bah moi je te dis le contraire :s
Petite surprise ce matin, j'ai eu des erreurs de sitemap dans mon interface google outils pour les webmaster qui sont dues au robots.txt
Je suis vite allé corrigé ça ^^' forcément faut pas dire dans le sitemap à Google de look une page qu'on restreint
générateur de sitemap à la noix
je regarderais mieux la prochaine fois ^^
Donc je sais pas trop :s
Petite surprise ce matin, j'ai eu des erreurs de sitemap dans mon interface google outils pour les webmaster qui sont dues au robots.txt
Je suis vite allé corrigé ça ^^' forcément faut pas dire dans le sitemap à Google de look une page qu'on restreint
générateur de sitemap à la noix
Donc je sais pas trop :s
Re: Robots.txt vs sitemap : c'est qui qui gagne ?...
non mais ce que je veux dire, c'est que le robots.txt n'interdit pas l'accès à une page, il dit juste au robot "s'il te plais va pas voir cette page" ... un spambot commencera par cette page bien évidement .
d'où l'intérêt de limiter l'accès via .htaccess au moins on est sure
d'où l'intérêt de limiter l'accès via .htaccess au moins on est sure
Re: Robots.txt vs sitemap : c'est qui qui gagne ?...
ouais et puis apres y'a aussi toujours les XXX extensions FF qu'on installe , les toolbars, les scripts de stats... tout ce petit mondequi de toute maniere ammene les bots ou autres a connaitre les différentes URL d'un site propriétaire ...
Re: Robots.txt vs sitemap : c'est qui qui gagne ?...
exemple concret vu sur le site web .
voici ce qu'on lit entre autres dans le fichier robots.txt
aucun des ces dossiers n'est protégé par htaccess, ni meme par une page d'index vide.
le dossier sql_scripts contient des fichiers .sql définissant dans les moindres details la structure de la base de données.
le dossier include contient des fichiers php avec une extension .inc donc le code est visible aussi via le navigateur ... bref tout pour pirater le site en deux minutes ...
c'est de ce genre d'erreur que je parle
(bien entendu le webmaster a été prévenu et a mis en place les protections nécessaires)
voici ce qu'on lit entre autres dans le fichier robots.txt
- Code: Tout sélectionner
User-agent: *
Crawl-delay: 10
# Directories
Disallow: /include/
Disallow: /sql_scripts/
Disallow: /users/
...
aucun des ces dossiers n'est protégé par htaccess, ni meme par une page d'index vide.
le dossier sql_scripts contient des fichiers .sql définissant dans les moindres details la structure de la base de données.
le dossier include contient des fichiers php avec une extension .inc donc le code est visible aussi via le navigateur ... bref tout pour pirater le site en deux minutes ...
c'est de ce genre d'erreur que je parle
(bien entendu le webmaster a été prévenu et a mis en place les protections nécessaires)
-

Raspailloux - WRInaute impliqué

- Messages: 380
- Inscription: Jeu Fév 19, 2009 18:41
Re: Robots.txt vs sitemap : c'est qui qui gagne ?...
sert à quedal robots.txt alors? 
-

aurelien59 - WRInaute passionné

- Messages: 684
- Inscription: Mar Juil 25, 2006 19:19
Re: Robots.txt vs sitemap : c'est qui qui gagne ?...
Moi mon robots.txt ne sert juste à indiquer... le sitemap !
- Code: Tout sélectionner
Sitemap: http://www.siteweb.com/sitemap.xml
Re: Robots.txt vs sitemap : c'est qui qui gagne ?...
Up !
Cas concret : une boutique en ligne, -http://www.mastermateriel.com
Il y a un grand nombre de pages "cart.php?id=..." (avec n° de token ce qui est illogique d'ailleurs) présentes dans l'index Google, alors que :
* le robots.txt en interdit l'accès aux robots
* les pages ne figurent pas dans le sitemap (encore heureux !)
* elles sont systématiquement en "noindex,follow" au niveau de la balise META robots
* les liens y menant sont en "nofollow"
Je sais plus quoi faire
Bon, à contrario elles ne ressortent jamais dans les SERP et les GWT me les donnent comme "pages inaccessibles bloquées par le robots.txt". Mais quand je fais une recherche sur "site:www.mastermateriel.com cart" et bien elles ressortent.
Normal, doc ?
Cas concret : une boutique en ligne, -http://www.mastermateriel.com
Il y a un grand nombre de pages "cart.php?id=..." (avec n° de token ce qui est illogique d'ailleurs) présentes dans l'index Google, alors que :
* le robots.txt en interdit l'accès aux robots
* les pages ne figurent pas dans le sitemap (encore heureux !)
* elles sont systématiquement en "noindex,follow" au niveau de la balise META robots
* les liens y menant sont en "nofollow"
Je sais plus quoi faire
Bon, à contrario elles ne ressortent jamais dans les SERP et les GWT me les donnent comme "pages inaccessibles bloquées par le robots.txt". Mais quand je fais une recherche sur "site:www.mastermateriel.com cart" et bien elles ressortent.
Normal, doc ?
Re: Robots.txt vs sitemap : c'est qui qui gagne ?...
cedric_g a écrit:* les liens y menant sont en "nofollow"
Ca n'a jamais empêché une URL d'être crawlée.
http://www.google.com/search?q=site:mastermateriel.com+cart&hl=fr&lr=& ... 0&filter=0
http://www.google.com/support/webmasters/bin/answer.py?answer=35667
Elles ont été recrawlées tes pages depuis qu'il y a une balise NOINDEX ?
Re: Robots.txt vs sitemap : c'est qui qui gagne ?...
cedric_g a écrit:Bonjour
Sous ce titre pour le moins foireux, une question, qui ne se pose pas sur mes sites (car généralement je m'arrange pour que les URL du sitemap ne soient pas filtrées par le robots.txt, et vice versa) mais sur le site d'une connaissance, qui avait généré son sitemap avec un outil en ligne.
Elle se retrouve donc avec des pages qui sont en théorie filtrées par le robots.txt (interdiction à tous les robots) mais qui figurent aussi dans le sitemap.
J'aurais cru pour ma part que le robots.txt "remportait" dans ce cas le suffrage, mais ce n'est pas le cas : les pages en question ont été indexées
Au-delà de la maladresse avérée du webmaster, cela signifie finalement qu'un sitemap, pour Google en tout cas, est la "vérité absolue" concernant les pages à indexer, furent-elles interdites dans le robots.txt ! Ou alors que Google pèche par excès si j'ose dire, prenant en compte le plus grand nombre possible d'URL !
Qu'en pensez-vous ?
En fait si on lit le A propos du Robot.txt chez GG tools
Même si le contenu des pages bloquées par le fichier robots.txt n'est ni exploré ni indexé, il est possible que nous indexions les URL de ces pages si nous les rencontrons sur d'autres sites Web. Cela signifie que l'URL de la page et éventuellement d'autres informations accessibles au public, notamment le texte ancré des liens qui pointent vers le site ou le titre créé par l'Open Directory Project,(http://www.dmoz.org), peuvent apparaître dans les résultats de recherche Google. Toutefois, le contenu de vos pages ne sera ni exploré, ni indexé, ni affiché.
Donc niveau indexation par le robot ça ne bloque pas forcément URL et de surcroit il génère un sitemap pour l'indexer.
De là, je ne vois pas d'incohérence ?
-

Raspailloux - WRInaute impliqué

- Messages: 380
- Inscription: Jeu Fév 19, 2009 18:41
Re: Robots.txt vs sitemap : c'est qui qui gagne ?...
Leonick a écrit:c'est bizarre, car pour moi, j'ai des avertissements au niveau de GWT quand j'ai des liens dans le sitemap qui sont bloqués par robots.txt
idem
20 messages • Page 1 sur 2 • 1, 2
Formation recommandée sur ce thème :
Formation Référencement naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.
Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.
Lectures recommandées sur ce thème :
- Déclarer son fichier sitemap dans le fichier robots.txt
- Comment gérer simplement les sitemaps de plusieurs sites au même endroit
- Contraintes d'emplacement du Sitemap
- Google Sitemap Generator version 1.3
- Exalead rejoint le protocole Sitemaps.org
- Référencement de vidéos avec les fichiers sitemaps vidéo
- Parts de marché des moteurs aux USA (Mars 2007)
- Parts de marché des moteurs aux USA (Janvier 2008)
- Parts de marché des moteurs aux USA (Mars 2008)
- Parts de marché des moteurs aux USA (Février 2008)
Consultez la description détaillée des produits ou services de Google suivants : Google Sitemaps
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités








le forum