Exploration VS Indexation / robots.txt VS noindex

Neoxy · 13 Février 2013

Bonjour,

Il me semble que notre ami GoogleBot procède dans un premier temps à l'exploration des URLs d'un site, puis à l'indexation des pages dans son index afin de les présenter éventuellement dans ses résultats de recherche.

Dans le cadre d'un contrôle de l'indexation des pages d'un site, il est parfois nécessaire d'indiquer à Google de ne pas indexer certaines pages, pour éviter des phénomènes de duplicate content par exemple :
- Fonctions de tri effectués par un moteur de recherche interne d'un site.
- Plusieurs pages pour un même produit ayant des couleurs différentes (et des contenus très similaires).
- Pages présentant une version Web et une version imprimable d'un article...

Pensez vous qu'il est judicieux de bloquer l'indexation des pages avec robots.txt ou simplement avec une balise noindex ?

Il me semble que robots.txt bloque carrément l'exploration des URLs, et de ce fait, je me dis que GoogleBot ne doit pas pouvoir constater toute l'expérience utilisateur que propose un site. (A travers des fonctions d'un moteur de recherche par exemple).

Alors que la balise noindex autorise l'exploration, mais indique simplement à Google de ne pas indexer les pages concernées...

Devons nous laisser Google explorer toutes les urls d'un site et bloquer l'indexation avec un simple noindex pour se prémunir du duplicate content ?

Ou est ce que le robots.txt suffit ? De ce fait, on privilégie les pages importantes à indexer, et Google ne se fatigue pas à explorer des milliers d'url noindex ?

Au plaisir d'avoir des avis, des retours, et des expériences à ce sujet.

A bientôt !

GSleuth · 17 Février 2013

Pour moi, le robots.txt est à proscrire.
J'avais un site qui s'est retrouvé avec 3 fois plus de pages dans l'index Google que de pages réelles. Car au final les pages bloquées par le robots sont tout de même présentes dans l'index. Il n'y a simplement par de description ou de titre, car il ne peut pas l'explorer. Mais c'était l'effet inverse de celui recherché.
Avec des noindex, plus de problèmes.

Neoxy · 17 Février 2013

Merci pour ton avis GSleuth...

Je me demandais quand quelqu'un allait m'apporter un point de vue concernant cette question...

Après réflexions, je partage ton avis, noindex semble plus intéressant que Robots.txt...

WebRankInfo · 18 Février 2013

si les pages ont déjà été indexées, alors il ne faut pas utiliser le fichier robots.txt en les interdisant (dans l'espoir qu'elles soient désindexées) car Google ne pouvant plus aller les consulter, il ne les met plus à jour, mais c'est tout.
à moins qu'elles soient toutes dans le même répertoire, dans ce cas on peut les désindexer via GWT

mais sinon, les 2 outils n'ont pas le même but et sont tous les 2 utiles :
- le robots.txt sert à bloquer le crawl, donc a priori en amont
- la meta robots noindex sert à bloquer l'indexation donc a priori en aval

Neoxy · 18 Février 2013

Bonjour,

Merci pour votre retour, grand administrateur de WRI ^^

Cordialement,

GSleuth · 18 Février 2013

WebRankInfo a dit:
mais sinon, les 2 outils n'ont pas le même but et sont tous les 2 utiles :
- le robots.txt sert à bloquer le crawl, donc a priori en amont

En fait j'ai du mal à percevoir l'intérêt de bloquer le crawl, puisque ça n'empêche pas les pages d'apparaître dans l'index s'il y a un lien dessus.
Économiser les ressources serveur? Honnêtement à part ça je ne vois pas.

julienringard · 18 Février 2013

Passe directement par APache et ton htaccess pour régler ça et ensuite fait une demande sur GWT

Neoxy · 18 Février 2013

GSleuth a dit:
WebRankInfo a dit:

mais sinon, les 2 outils n'ont pas le même but et sont tous les 2 utiles :
- le robots.txt sert à bloquer le crawl, donc a priori en amont

Cliquez pour agrandir...

En fait j'ai du mal à percevoir l'intérêt de bloquer le crawl, puisque ça n'empêche pas les pages d'apparaître dans l'index s'il y a un lien dessus.
Économiser les ressources serveur? Honnêtement à part ça je ne vois pas.

A la base, c'était pour limiter le duplicate content sur une rubrique du site...

WebRankInfo · 18 Février 2013

GSleuth a dit:
WebRankInfo a dit:

mais sinon, les 2 outils n'ont pas le même but et sont tous les 2 utiles :
- le robots.txt sert à bloquer le crawl, donc a priori en amont

Cliquez pour agrandir...

En fait j'ai du mal à percevoir l'intérêt de bloquer le crawl, puisque ça n'empêche pas les pages d'apparaître dans l'index s'il y a un lien dessus.
Économiser les ressources serveur? Honnêtement à part ça je ne vois pas.

si les pages n'ont jamais été indexées, en les bloquant dans le fichier robots.txt elles ne devraient pas être indexées

GSleuth · 18 Février 2013

WebRankInfo a dit:
si les pages n'ont jamais été indexées, en les bloquant dans le fichier robots.txt elles ne devraient pas être indexées

Dans le cas de mon site en tout cas elles l'ont été