Bonjour,
Il me semble que notre ami GoogleBot procède dans un premier temps à l'exploration des URLs d'un site, puis à l'indexation des pages dans son index afin de les présenter éventuellement dans ses résultats de recherche.
Dans le cadre d'un contrôle de l'indexation des pages d'un site, il est parfois nécessaire d'indiquer à Google de ne pas indexer certaines pages, pour éviter des phénomènes de duplicate content par exemple :
- Fonctions de tri effectués par un moteur de recherche interne d'un site.
- Plusieurs pages pour un même produit ayant des couleurs différentes (et des contenus très similaires).
- Pages présentant une version Web et une version imprimable d'un article...
Pensez vous qu'il est judicieux de bloquer l'indexation des pages avec robots.txt ou simplement avec une balise noindex ?
Il me semble que robots.txt bloque carrément l'exploration des URLs, et de ce fait, je me dis que GoogleBot ne doit pas pouvoir constater toute l'expérience utilisateur que propose un site. (A travers des fonctions d'un moteur de recherche par exemple).
Alors que la balise noindex autorise l'exploration, mais indique simplement à Google de ne pas indexer les pages concernées...
Devons nous laisser Google explorer toutes les urls d'un site et bloquer l'indexation avec un simple noindex pour se prémunir du duplicate content ?
Ou est ce que le robots.txt suffit ? De ce fait, on privilégie les pages importantes à indexer, et Google ne se fatigue pas à explorer des milliers d'url noindex ?
Au plaisir d'avoir des avis, des retours, et des expériences à ce sujet.
A bientôt !
Il me semble que notre ami GoogleBot procède dans un premier temps à l'exploration des URLs d'un site, puis à l'indexation des pages dans son index afin de les présenter éventuellement dans ses résultats de recherche.
Dans le cadre d'un contrôle de l'indexation des pages d'un site, il est parfois nécessaire d'indiquer à Google de ne pas indexer certaines pages, pour éviter des phénomènes de duplicate content par exemple :
- Fonctions de tri effectués par un moteur de recherche interne d'un site.
- Plusieurs pages pour un même produit ayant des couleurs différentes (et des contenus très similaires).
- Pages présentant une version Web et une version imprimable d'un article...
Pensez vous qu'il est judicieux de bloquer l'indexation des pages avec robots.txt ou simplement avec une balise noindex ?
Il me semble que robots.txt bloque carrément l'exploration des URLs, et de ce fait, je me dis que GoogleBot ne doit pas pouvoir constater toute l'expérience utilisateur que propose un site. (A travers des fonctions d'un moteur de recherche par exemple).
Alors que la balise noindex autorise l'exploration, mais indique simplement à Google de ne pas indexer les pages concernées...
Devons nous laisser Google explorer toutes les urls d'un site et bloquer l'indexation avec un simple noindex pour se prémunir du duplicate content ?
Ou est ce que le robots.txt suffit ? De ce fait, on privilégie les pages importantes à indexer, et Google ne se fatigue pas à explorer des milliers d'url noindex ?
Au plaisir d'avoir des avis, des retours, et des expériences à ce sujet.
A bientôt !