Panda est mon ami . ou pas

indigene · 31 Mars 2014

En 2008 j'avais développé un site que je n'ai jamais vraiment rempli avec du contenu car j'avais ensuite d'autres occupations.
A cette époque, Panda n'existait pas encore.
J'ai décidé dernièrement de le remettre en service, de le terminer, et de le remplir en contenu de qualité (d'excellente qualité au sens google du terme).

Mais je me frotte au panda sur un point précis : le duplicate content interne

Chaque article est bien souvent dupliqué en 3 exemplaires ou même parfois en 5 exemplaires ou encore en 7.
On peut accéder à un article en navigant dans les catégories. Ca fait 1
On peut accéder au même article sans passer par les catégories (donc plus ne navigation avant/arrière). Ca fait 2
Avec ce mode d'accès on a bien souvent le contenu de l'article présent 2 fois dans la même page (avec une présentation différente). J'ai fait ça pour brouiller un peu les mots clés et faire croire à google que c'était deux pages de contenu différentes, ça semblait bien fonctionner en 2007)
La dernière nouveauté c'est que mes articles sont ensuite repris intégralement sur une page de type "blog" qui affiche 10 articles à la suite (et pas seulement le début des articles avec un lien "lire la suite"). J'avais en effet remarqué en 2007-2008 que google affectionnait particulièrement les blogs. Ca fait 3

Ensuite j'ai la possibilité d'affecter un même article à plusieurs catégories. On va donc le retrouver une 4° fois et une 5° dans la page "blog" de la catégorie. S'il est affecté à 3 catégories, mon duplicate content interne est donc de 7 !!!

J'ai quand même de gros doutes sur le fait que panda va apprécier que je vienne le chatouiller de cette façon.
Mais je ne vois pas trop de solutions pour limiter ce duplicate interne. En effet, il s'agit d'une galerie et on passe d'une page à l'autre en suivant un ordre précis de déplacement avant/arrière et chaque catégorie constitue une série. Si une photo se trouve dans deux séries car elle correspond à deux thèmes, la solution serait de dupliquer la photo et de réécrire un nouveau contenu. Mais d'autres problèmes se poseraient alors mais c'est long à expliquer. Pour les pages de type "blog" je pourrais par contre me limiter aux 300 premiers mots, par exemple. Mais certains articles font moins de 300 mots donc ça ne changerait pas grand-chose.

Question :
Vous connaissez des cas similaires de duplicate content interne (article affecté à plusieurs catégories) qui passent au travers de Panda ?

salva · 31 Mars 2014

indigene a dit:
Mais je ne vois pas trop de solutions pour limiter ce duplicate interne.

La même balise (celle que tu auras choisi)

Code:

<link rel="canonical" href="..." />

pour toutes les pages en duplicate (celles qui affichent le même contenu).

indigene · 31 Mars 2014

Merci pour cette réponse à côté de la question (j'avais pourtant bien mis en évidence la question il me semble)

Le but est justement que toutes les pages soient référencées, sinon je n'aurai pas développé le système de pages de type "blog"
Et sur ces pages, vu que le contenu provient de 10 autres pages, ce n'est pas possible de mettre la balise.
Je pourrais éventuellement l'utiliser quand une page appartient à plusieurs catégories (mais ce cas est relativement rare d'ailleurs, moins de 5% je pense).

Le plus important vient que chaque page peut être trouvée avec la notion de catégorie et sans cette notion (et je souhaite que les deux soient référencées). Et ensuite le cas du contenu dupliqué intégralement dans une page qui regroupe 10 autres pages en une seule.

salva · 31 Mars 2014

C'est une manière élégante (prends s'en de la graine) de te dire que tu n'auras pas le beurre et l'argent qui va avec.

indigene · 31 Mars 2014

J'ai finalement adopté la balise canonical uniquement pour la catégorie "nouveautés" car contrairement aux autres, cette catégorie ne contient QUE du duplicate content interne.
Pour le reste je vais attendre le passage de google-bot pour voir ce qui en est

UsagiYojimbo · 31 Mars 2014

indigene a dit:
J'ai finalement adopté la balise canonical uniquement pour la catégorie "nouveautés" car contrairement aux autres, cette catégorie ne contient QUE du duplicate content interne.
Pour le reste je vais attendre le passage de google-bot pour voir ce qui en est

Si sur tes pages détails dupliquées le contenu est strictement le même, il ne faut pas espérer un miracle.

noren · 31 Mars 2014

La question n'est pas de savoir si d'autres sont passés au travers, ça n'a aucun intérêt. Mais c’est de savoir si tu prends des risques ou non. Et la clairement tu en prends.

Tu le sais que tu as du DC et que c’est très risqué, à toi de l'éviter, ça t’évitera donc de mauvaises surprises et du temps perdu pour rien, surtout si à côté de ça tu dis mettre du contenu de qualité. Ne gâche pas ce contenu avec une mauvaise structure de ton site qui pourrait te couter très cher.

Au lieu de mettre les articles complets à chaque fois met juste le début (y a un nom pour ça mais je me rappelle plus) avec des "lire la suite, ... , " , utilise parfois les meta au lieu du texte de ton article etc.
vérifie si la structure de ton site ne peut pas être amélioré pour éviter un tel DC. les tags par exemples peuvent être dangereux pour le ref si ils sont mal utilisés et en grande quantité

En gros c’est comme si tu disais que tu allais en plein milieu du Sahara sans boussole et que tu demandais si d'autres ont réussi a traverser le désert en vie sans boussole également. N'est-ce pas plus judicieux de prévoir la boussole et de bien se préparer pour une traversé du désert?

indigene · 31 Mars 2014

noren a dit:
Tu le sais que tu as du DC et que c’est très risqué, à toi de l'éviter

L'ennui c'est que ça serait ultra simple de l'éviter. Il suffirait de ne pas le générer. Mais il se trouve que je le génère exprès.

Pas pour tenter de gruger google, mais pour une raison simple :

- un article peu se trouver dans plusieurs catégories
il me suffirait de choisir une des catégories comme étant la catégorie principale et ne pas faire indexer les autres. J'ai donc une solution à ce niveau mais la présence d'articles dans plusieurs catégories est rare donc je ne l'ai pas mise en place. Ca ne ferait que ralentir le script et surcharger la base pour si peu d'utilisation réelle.

- chaque article (ce sont des photos en fait) propose des liens presque aléatoires vers 4 autres images.
Le lien n'est pas fait vers un couple image/catégorie car les quelques photos présentes dans deux catégories seraient alors avantagées par rapport aux autres et sortiraient plus souvent.
La solution que j'ai trouvé à l'époque pour ne pas avoir ce problème est de faire un lien vers la page seule, en dehors de toute notion de catégorie. Donc chaque page est doublée. Mais avec on entourage sensiblement différent (menus et footer sont différents)

Ces liens croisés entre toutes mes pages sont efficaces pour le référencement en profondeur et ont un intérêt certain pour l'utilisateur et aussi pour le conserver plus longtemps.

Cette fois, pas question de mettre du noindex car je perdrais l'intérêt pour le référencement de ces liens croisés.
Maintenant il existe la balise canonical qui permet de faire indexer la page principale et de considérer ces différentes versions comme des variantes mais je retombe sur le premier problème. Si je met en canonical les pages sans la notion de catégorie je n'ai pas la possibilité de naviguer d'une photo à l'autre d'une série avec les boutons "suivant" "précédent". Et si je met en canonical la page dans une catégorie principale il faut que je développe tout un système pour gérer pour chaque publication une catégorie principale en plus des catégories d'affectation. C'est réalisable mais un peu lourd.

Pour le système d'affichage à la façon d'un blog je vais attendre un peu pour prendre une décision. C'est de loin le plus simple à faire et ça ne concerne qu'un seul script à modifier, aucune table sql. Mais c'était à l'origine un service rendu aux utilisateurs qui préfèrent lire des blogs avec tous les articles les uns en dessous des autres plutôt que de faire défiler une galerie page par page. Si je leur impose de cliquer sur "lire la suite..." pour lire le texte de l'article en entier, il n'y a plus de valeur ajoutée.

indigene · 31 Mars 2014

Ah, une autre précision : à l'époque j'avais commencé à charger la galerie avec environ 150 images. Il n'y avait que très peu de textes. Le site pourrait être considéré comme manquant de contenu. Mais malgré tout, il n'a pas été touché par panda dans l'état où il était (ou alors certaines pages seulement). Quand je fais une requête j'ai la photo qui arrive bien classée et la page est en 3° page des serps. Ca s'explique seulement par le manque d'activité depuis 5 ans, pas par un panda qui m'aurait précipité au delà de la 100° position.