Comment combattre du Duplicate Content par un Robot.txt ou Paramétrage URL GWT ?

Nouveau WRInaute
Bonjour à toutes et à tous,
Sur un de mes sites e-commerce en MAGENTO, je rencontre du duplicate content généré automatiquement sur certaines de mes urls produits, à priori des urls de produit configurable ou de produit à options personnalisables. Dans les GWT amélioration HTML, mes urls à duplicate content sont identifiés comme ci-après:
Produit en plastique à hélice à poser au sol | mon site
/produit-en plastique-a-helice-a-poser-au-sol-4855.html
/produit-en plastique-a-helice-a-poser-au-sol-4861.html
/produit-en plastique-a-helice-a-poser-au-sol-4870.html
/produit-en plastique-a-helice-a-poser-au-sol-4873.html
/produit-en plastique-a-helice-a-poser-au-sol-5085.html
/produit-en plastique-a-helice-a-poser-au-sol-5087.html
/produit-en plastique-a-helice-a-poser-au-sol-5103.html
/produit-en plastique-a-helice-a-poser-au-sol-5117.html
/produit-en plastique-a-helice-a-poser-au-sol-5203.html
/produit-en plastique-a-helice-a-poser-au-sol-5205.html

Je m'en remets à la communauté du forum, car je peine depuis des semaines à trouver le moyen d'interdire l'indexation des urls à suffixe de type "produit-en plastique-a-helice-a-poser-au-sol-4chiffres.html", soit par le biais d'un robot.txt, soit par le paramétrage des urls Google Web Master Tools, ou toute autre solution que vous pensez viable...
Votre concours à résoudre ce problème est dors et déjà vivement apprécié
merci d'avance.
 
Nouveau WRInaute
Merci de ce premier retour, que je viens de lire avec attention,
mais il semble que je sois déjà en url canonical, ce phénomène n'affecte pourtant pas le reste des urls produits de mon catalogue.
Seulement, les produits configurable ou bien les produits à option personnalisable....
comment éradiquer ce suffixe à 4 chiffres par un robot.txt ? est ce possible ?
 
Olivier Duffez (admin)
Membre du personnel
pour les fiches produits ayant des variantes, voici les différentes solutions, de la meilleure à la moins bonne :
- permettre d'accéder aux variantes du produit sans générer des URL différentes (il faut donc un CMS qui utilise du JS ou AJAX)
- faire des 301 vers l'URL à garder (mais dans ce cas c'est impossible, sinon l'internaute ne peut pas accéder aux variantes)
- définir une URL canonique
- utiliser le paramétrage des URL dans Google Webmaster Tools (mais d'une part c'est à refaire pour les autres moteurs, notamment Bing, mais d'autre part c'est mieux de régler le problème sur le site lui-même)
- ajouter une balise meta noindex sur les pages des variantes
- bloquer le crawl des pages des variantes (via robots.txt) même après l'indexation de celles-ci
 
Nouveau WRInaute
si les pages sont strictement identiques, le <link rel="canonical" href="http://xxx" > dans le head est fait pour ça !
(avec xxx :l'url complète de la seule page que tu veux indexer)

s'il les pages sont des "variante", que le contenu diffère, ca devrait fonctionner aussi, mais ça reste à vérifier.
tu peux aussi essayer avec la balise meta original-source
https://support.google.com/news/publisher/answer/191283?hl=fr
jamais essayé en pratique, mais ça devrait au moins expliciter aux moteurs quelle URL est la principale, et lui donner plus de poids.

La meta noindex est dommage à mon sens : tu perds le poids de ces pages, alors qu'avec les solutions précédentes, tu concentrais une partie du poids sur la page principale.


Comme le propose UsagiYojimbo, indique nous l'url de ton site, qu'on puisse regarder précisément comment est implémenté ton site.
 
Nouveau WRInaute
Je n'ai bossé qu'une seule fois avec Magento, et ce que j'en ai retenu c'est qu'il faut généraliser les meta canonical partout !

Le CMS s'est peut-être corrigé depuis, mais les url étaient dupliquées constamment : un produit mis en avant sur la page d'accueil ? Duplication d'url
Un produit mis en avant dans une rubrique promotions ? Duplication d'url
etc...

Bref, pour parer à ce genre de pbm Et à celui des variantes : meta canonical partout
 
WRInaute accro
@Ouily : pour les cas que tu évoques, mettre les produits à la racine solutionne durablement le problème. Et ce ne sont pas les mêmes problèmes de DC que ceux évoqués par ABCDEF.
 
Nouveau WRInaute
Ce sont effectivement des problèmes différents, mais qui ont pour solution commune les meta canonical : double raison pour les utiliser :)
 
Nouveau WRInaute
De toutes ses pistes, celle qui me semble la plus viable pour traiter mon souci serait de définir la bonne syntaxe dans les GWT paramètres d'url, afin d'interdire l'indexation de toutes les urls qui se terminent par :
url-4 chiffres.html.
Si vous avez une idée de rédaction du paramétrage, je veux bien la tester sur mon site.
Par avance merci.
 
Discussions similaires
Haut