Exploration VS Indexation / robots.txt VS noindex

WRInaute occasionnel
Bonjour,

Il me semble que notre ami GoogleBot procède dans un premier temps à l'exploration des URLs d'un site, puis à l'indexation des pages dans son index afin de les présenter éventuellement dans ses résultats de recherche.

Dans le cadre d'un contrôle de l'indexation des pages d'un site, il est parfois nécessaire d'indiquer à Google de ne pas indexer certaines pages, pour éviter des phénomènes de duplicate content par exemple :
- Fonctions de tri effectués par un moteur de recherche interne d'un site.
- Plusieurs pages pour un même produit ayant des couleurs différentes (et des contenus très similaires).
- Pages présentant une version Web et une version imprimable d'un article...

Pensez vous qu'il est judicieux de bloquer l'indexation des pages avec robots.txt ou simplement avec une balise noindex ?


Il me semble que robots.txt bloque carrément l'exploration des URLs, et de ce fait, je me dis que GoogleBot ne doit pas pouvoir constater toute l'expérience utilisateur que propose un site. (A travers des fonctions d'un moteur de recherche par exemple).

Alors que la balise noindex autorise l'exploration, mais indique simplement à Google de ne pas indexer les pages concernées...

Devons nous laisser Google explorer toutes les urls d'un site et bloquer l'indexation avec un simple noindex pour se prémunir du duplicate content ?

Ou est ce que le robots.txt suffit ? De ce fait, on privilégie les pages importantes à indexer, et Google ne se fatigue pas à explorer des milliers d'url noindex ?

Au plaisir d'avoir des avis, des retours, et des expériences à ce sujet.

A bientôt !
 
Nouveau WRInaute
Pour moi, le robots.txt est à proscrire.
J'avais un site qui s'est retrouvé avec 3 fois plus de pages dans l'index Google que de pages réelles. Car au final les pages bloquées par le robots sont tout de même présentes dans l'index. Il n'y a simplement par de description ou de titre, car il ne peut pas l'explorer. Mais c'était l'effet inverse de celui recherché.
Avec des noindex, plus de problèmes.
 
WRInaute occasionnel
Merci pour ton avis GSleuth...

Je me demandais quand quelqu'un allait m'apporter un point de vue concernant cette question...

Après réflexions, je partage ton avis, noindex semble plus intéressant que Robots.txt...
 
Olivier Duffez (admin)
Membre du personnel
si les pages ont déjà été indexées, alors il ne faut pas utiliser le fichier robots.txt en les interdisant (dans l'espoir qu'elles soient désindexées) car Google ne pouvant plus aller les consulter, il ne les met plus à jour, mais c'est tout.
à moins qu'elles soient toutes dans le même répertoire, dans ce cas on peut les désindexer via GWT

mais sinon, les 2 outils n'ont pas le même but et sont tous les 2 utiles :
- le robots.txt sert à bloquer le crawl, donc a priori en amont
- la meta robots noindex sert à bloquer l'indexation donc a priori en aval
 
Nouveau WRInaute
WebRankInfo a dit:
mais sinon, les 2 outils n'ont pas le même but et sont tous les 2 utiles :
- le robots.txt sert à bloquer le crawl, donc a priori en amont

En fait j'ai du mal à percevoir l'intérêt de bloquer le crawl, puisque ça n'empêche pas les pages d'apparaître dans l'index s'il y a un lien dessus.
Économiser les ressources serveur? Honnêtement à part ça je ne vois pas.
 
WRInaute occasionnel
GSleuth a dit:
WebRankInfo a dit:
mais sinon, les 2 outils n'ont pas le même but et sont tous les 2 utiles :
- le robots.txt sert à bloquer le crawl, donc a priori en amont

En fait j'ai du mal à percevoir l'intérêt de bloquer le crawl, puisque ça n'empêche pas les pages d'apparaître dans l'index s'il y a un lien dessus.
Économiser les ressources serveur? Honnêtement à part ça je ne vois pas.

A la base, c'était pour limiter le duplicate content sur une rubrique du site...
 
Olivier Duffez (admin)
Membre du personnel
GSleuth a dit:
WebRankInfo a dit:
mais sinon, les 2 outils n'ont pas le même but et sont tous les 2 utiles :
- le robots.txt sert à bloquer le crawl, donc a priori en amont

En fait j'ai du mal à percevoir l'intérêt de bloquer le crawl, puisque ça n'empêche pas les pages d'apparaître dans l'index s'il y a un lien dessus.
Économiser les ressources serveur? Honnêtement à part ça je ne vois pas.
si les pages n'ont jamais été indexées, en les bloquant dans le fichier robots.txt elles ne devraient pas être indexées
 
Discussions similaires
Haut