Un point sur le Duplicate Content (contenu dupliqué)

Consultez la formation au REFERENCEMENT naturel Google de WebRankInfo / Ranking Metrics

doic
WRInaute passionné
WRInaute passionné
 
Messages: 1147
Enregistré le: 7 Nov 2003

Un point sur le Duplicate Content (contenu dupliqué)

Message le Mer Juin 28, 2006 13:58

Bonjour.

J'aimerai faire un point sur le Duplicat Content.
On lit de temps en temps sur le forum que le Duplicat Content est un phénomène du à des pages proposant plusieurs contenus pour la même URL et inversement (si si, j'ai vu ça ^^).
Tout d'abord, plusieurs contenus pour une même URL, ce n'est pas du DC (je vais abréger le terme "Duplicat Content") c'est juste une très grosse erreur dans la gestion des contenus. L'inverse relève bien du DC, mais pas seulement. Si personne ne s'y oppose, le DC est "déclaré" (oui, ça s'apparente à une maladie, avec des symptômes, des causes et des remèdes) si plusieurs pages proposent un contenu sensiblement similaire. Ainsi, de nombreux sites dynamiques ont beau générer des titres, descriptions et contenus différents, il se pourrait que Google classe des pages en DC.
Par exemple, certains sites sont construit sous cette forme:
Code: Tout sélectionner
<title>Nomdusite.com :[mot-clé dynamique], toujours la même phrase</title>
<meta name="description" content="Phrase 1 [mot clé (le même qu'en haut)] Phrase 2 (ou pire: suite de mots-clés toujours pareille)" />

Dans les pires des cas, on a dans le <body></body> toujours le même carcan (header, menu à gauche, éléments contextuels (toujours les mêmes) )et 5 petites phrases en plein milieu, qui changent sur chaque page (soit un mini-contenu).

Bref, le contenu change bien, mais il est très similaire...

Voilà, est-ce que jusque-là tout le monde est d'accord avec moi ?

Ensuite, j'aimerai soumettre une méthode pour détecter facilement les cas de DC (tirez la langue est faites Ha ^^):

Je tape la commande site:lesiteenquestion.com dans Google, et j'essaie d'aller en page 90 ou 99 (dépend de l'humeur).

Si Google me montre cette page, et que je peux éventuellement aller jusqu'à la 100ème page, le site est en parfaite santé.
Si il m'amène automatiquement en page 70 et quelques, avec le fameux lien
Pour limiter les résultats aux pages les plus pertinentes (total : xxx), Google a ignoré certaines pages à contenu similaire.
Si vous le souhaitez, vous pouvez relancer la recherche en incluant les pages ignorées.
Il y'a une partie du site qui semble "malade".
En fait, plus il y'a de pages, et plus le site est "malade"...

Bien entendu, il faut comparer avec le nombre total de résultats pour la commande, si le site n'a que 500 pages indexées, 470 résultats affichés, c'est très bien...

alesque
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 338
Enregistré le: 7 Fév 2004

Message le Mer Juin 28, 2006 14:02

Harggg !!!!

J'ai que 27 pages sur 176 !!!

Mon site est très malade ? C'est ça ?

J'ai gagné ??

efz
WRInaute discret
WRInaute discret
 
Messages: 180
Enregistré le: 16 Nov 2005

Message le Mer Juin 28, 2006 14:12

J'ai rencontré le cas que tu décris en effet sur un moteur de recherches : mon traffic est passé de 1300/1500 vu/jour à 2500 vu/jour à partir du 14 Juin, pour retomber à environ 1600 vu/jour à partir du 24 Juin. La plupart des nouvelles visites étaient dûes à ce moteur qui utilise l'API Google, mémorise les recherches effectuées et propose les meilleurs recherches sous forme de liens.
J'imagine que Google a finalement considéré qu'il s'agissait de duplicate content... :cry:


david96
WRInaute passionné
WRInaute passionné
 
Messages: 1467
Enregistré le: 28 Aoû 2005

Message le Lun Juil 03, 2006 12:13

Intéressant ça ! Merci doic !

doic
WRInaute passionné
WRInaute passionné
 
Messages: 1147
Enregistré le: 7 Nov 2003

Message le Lun Juil 03, 2006 13:06

Oui... mais est-ce que je peux avoir des retours sur la validité de ma méthode ??
Pour ma part, elle me semble pertinente, mais j'aimerai bien l'avis de personnes un peu plus averties...


david96
WRInaute passionné
WRInaute passionné
 
Messages: 1467
Enregistré le: 28 Aoû 2005

Message le Lun Juil 03, 2006 13:14

Je vais l'appliquer dès aujourd'hui ! Ça ne peut pas faire de mal !
Je n'avais mis que la balise <title> en dynamique, la balise <description> étant toujours la même. Je vais donc remédier à ça !
J'espère que tu auras des réponses à ta requête en attendant, car je ne pense pas que ça sera pris en compte par google de suite pour ma part :?

Allez au boulot ! 8)


dobey
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 44
Enregistré le: 1 Juin 2006

Message le Lun Juil 03, 2006 23:15

Si Google me montre cette page, et que je peux éventuellement aller jusqu'à la 100ème page, le site est en parfaite santé.
Si il m'amène automatiquement en page 70 et quelques, avec le fameux lien

Oui et non.
Je pense que ce test est valide pour un site ciblant des recherches assez générales, mais pas pour les sites qui ciblent beaucoup de requetes précises.
Exemple d'un site d'annonces auto:
Les pages ignorées dans les résultats de cette recherche ne sortiront pas sur "renault d'occasion" ou même sur "renault d'occasion ile de france". Par contre, sur des recherches très précises comme "renault 19 td occasion à PloucVille", la page sera listée si on a la chance d'avoir l'annonce qu'il faut (ou des annonces qui combinent ces mots sur la page).
Donc, pour un site avec des milliers de pages qui ratisse large sur des requêtes spécifiques, je ne crois pas que ton test puisse indiquer un problème majeur.
A confirmer.

doic
WRInaute passionné
WRInaute passionné
 
Messages: 1147
Enregistré le: 7 Nov 2003

Message le Mar Juil 04, 2006 9:04

Le problème avec le Duplicat Content, c'est que même si ton site y est sujet, ses pages sont susceptibles de ressortir dans les résultats: Google ne se prive pas de contenu qu'il a indexés !

Le problème, dites-moi si je me trompe, c'est en fait que le DC pénalise des pages (puisque ce ne sont en fait que de pâles copies d'autres pages) pour des requêtes larges.

Si une page comporte 99% du contenu d'une autre, plus le mot "Pertyfez", elle aura beau être considérée DC, elle sortira si tu tapes "Pertyfez" sur Google... logique !


dobey
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 44
Enregistré le: 1 Juin 2006

Message le Mar Juil 04, 2006 9:37

Tout à fait d'accord.
Donc le DC n'est pas une forme de blacklistage de page, ce n'est pas "On/Off". Je pense que c'est un des critères de classement des résultats et qu'il est progressif. Il n'y a certaienement pas de seuil (genre "au dela de 70% de contenu similaire, t'es mort. Et en dessous tout baigne) mais ce critère doit déclasser proportionnellement au taux de similarité.

Autre chose : il se peut que le DC soit détecté par blocs dans la page (paragraphe? phrase?).
http://www.cs.umd.edu/~pugh/google/Duplicates.pdf
Dans ce cas, on peut supposer (et c'est logique) que dans le cas d'une page qui contiendrait un contenu original + une définition recopiée sur Wikipédia, le contenu unique ressorte bien sur les termes le concernant mais que les mots clés de la définition Wikipedia ne permettre pas de se positionner.

doic
WRInaute passionné
WRInaute passionné
 
Messages: 1147
Enregistré le: 7 Nov 2003

Message le Mar Juil 04, 2006 12:01

Là j'en doute. J'ai un pote (éspèce de Vieux Machin ^^) qui recopie volontiers des articles de Wikipédia (toujours en citant la source) et qui positionne très bien ses pages sur des requêtes de l'article !

A mon avis, c'est quand même On / Off, mais si c'est Off, ça ne concerne que les requêtes larges. Sur des requêtes précises (et peu concurrentielles) ta page en DC sortira bien quand même...


Formation recommandée sur ce thème :

Formation REFERENCEMENT naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.

Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.

Lectures recommandées sur ce thème :