Duplicate Content : le point sur ce que nous savons

Consultez la formation au REFERENCEMENT naturel Google de WebRankInfo / Ranking Metrics


zapman
WRInaute discret
WRInaute discret
 
Messages: 101
Inscription: 8 Juin 2005

Duplicate Content : le point sur ce que nous savons

Message le Jeu Mai 11, 2006 1:04

Le "Duplicate Content" est le fait d'avoir 2 pages Web comportant le même contenu ou un contenu très proche.

Dans un tel cas, et pour éviter d'encombrer leurs résultats de recherche, les moteurs tels que Google élimine l'une des deux pages des résultats.

Le "Duplicate Content" est géré par un filtre et non par une pénalité. Il ne provoque pas de perte de PageRank (excepté pour le cas N°1 décrit ci-dessous), ni de "blacklistage" ou de "sandbox".

Pour éviter le cas le plus fréquent et le plus ennuyeux de "Duplicate Content", il est impératif que toutes les pages de votre site comportent des balises <Title> et <Description> différentes.

On peut distinguer 3 cas distincts de "Duplicate Content" :

1- Pages exactement identiques (à l'octet près)
Cas de sites miroirs. Google considèrera que la page ayant le plus fort PageRank est l'URL canonique. Il désindexera les autres pages et reportera leur PageRank sur la page retenue. Cela ne semble pouvoir se produire que si les pages identiques figurent sur des noms de domaine différents.

2- Pages similaires mais comportant des balises <TITLE> et <DESCRIPTION> différentes
Toutes les recherches portant sur le texte commun aux différentes pages donneront comme résultat la page ayant le plus fort PageRank. Les autres pages seront visibles en cliquant sur "relancer la recherche en incluant les pages ignorées". Elles figureront également dans les résultats des recherches portant sur leurs contenus originaux (ce qui diffère du texte commun).

3- Pages différentes mais comportant les mêmes balises <TITLE> et <DESCRIPTION>
Certaines pages peuvent sembler très similaires aux yeux des moteurs de recherche alors qu'elles semblent différentes aux yeux d'un humain. (en-têtes identiques, menus identiques, "footer" identique). Le fait qu'elles possèdent des balises identiques ne fait qu'aggraver la situation. Elles risquent de subir les mêmes problèmes que les pages similaires citées ci-dessus. Dans le pire des cas, il est même possible que leur contenu ne soit pas du tout indexé.

Le filtre "Duplicate Content" s'applique sur des pages et non pas sur la globalité d'un site.

Les pages concernées sont retirées des résultats mais ne sont pas désindexées. Si elles comportent une petite partie originale, on peut continuer à les retrouver par une recherche sur les mots de ce contenu original.

Lorsque le contenu d'une page est copié par un site indélicat, il arrive que Google conserve la page du copieur et retire celle de l'auteur. Google semble simplement privilégier la page ayant le plus fort PageRank à l'exclusion de toute autre considération.

Les sites proposant plusieurs versions de chacune de leurs pages (versions imprimables, par exemple) ne seront pas pénalisés par ce filtre. Simplement, une seule de ces pages figurera dans les résultats. Pour choisir laquelle, il suffit d'ajouter la balise <meta name="robots" content="noindex"> dans les pages que l'on ne souhaite pas voir figurer dans les résultats.

On lit souvent que deux pages doivent comporter moins de 70% de ressemblance pour échapper au filtre "Duplicate Content". Ce chiffre ne repose sur aucune base et ne résiste pas à l'expérimentation. Voir à ce sujet http://www.rankspirit.com/resultats-experimentation-duplicate.php

Source de cet article (comportant d'autres précisions) : http://www.rankspirit.com/duplicate-content.php
Dernière édition par zapman le Jeu Mai 11, 2006 8:27, édité 1 fois.


dd32
Modérateur
Modérateur
 
Messages: 3387
Inscription: 9 Sep 2005

Message le Jeu Mai 11, 2006 1:38

Puisqu'on fait un point, tu me permets de rappeler ce topic ?
"Duplicate content" Existe t' il vraiment ?
:wink:


zapman
WRInaute discret
WRInaute discret
 
Messages: 101
Inscription: 8 Juin 2005

Message le Jeu Mai 11, 2006 2:21

dd32 a écrit:Puisqu'on fait un point, tu me permets de rappeler ce topic ?
"Duplicate content" Existe t' il vraiment ?

Mais je vous en prie, chèr(e) ami(e), faites donc ! :D
Et tant qu'on y est : >Ce topic aussi< : sur l’importance de la différentiation des balises meta et sur les risques propres aux sites dynamiques.

L'expérimentation citée dans le premier post tente de répondre à certaines des questions que posaient ces topics. Mais l'interprétation des résultats n'est pas toujours simple. En clair, la réponse à la question "qu'est-ce qui fait que Google détecte un Duplicate Content ou non" est loin d'être évidente.
Ce qui est sûr, c'est que la règle des 70%, qui est souvent citée, est tout à fait bidon. :roll:

Rebelle bleue
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 2
Inscription: 11 Mai 2006

Message le Jeu Mai 11, 2006 22:31

Dans ta page de résultats, on voit que ce sont les pages qui ont le plus de ressemblance avec la page originale qui sortent dans les résultats. Comment explique-tu ça ?


zapman
WRInaute discret
WRInaute discret
 
Messages: 101
Inscription: 8 Juin 2005

Message le Sam Mai 13, 2006 1:28

Rebelle bleue a écrit:Dans ta page de résultats, on voit que ce sont les pages qui ont le plus de ressemblance avec la page originale qui sortent dans les résultats. Comment explique-tu ça ?

J'ai bien une explication, mais elle est un peu complexe :
- toutes les pages de l'expérimentation sont liées les unes aux autres à l'aide d'une liste de liens qui est toujours la même
- dans cette liste, les pages 90% (de ressemblance) et 80% sont placées en premier
- on peut supposer que ces pages récupèrent du coup un "PageRank" (ou quelque chose dans ce genre) plus important que les autres
- en cas de "Duplicate Content", Google choisit d'afficher les pages ayant le plus fort PageRank.


Borower
WRInaute passionné
WRInaute passionné
 
Messages: 2151
Inscription: 18 Avr 2005

Message le Sam Mai 13, 2006 7:55

Tres bon article.
Une recommandation

Ce sujet de duplicate content m'interresse beaucoup.

pubwebmaster
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 255
Inscription: 15 Sep 2004

Message le Sam Mai 13, 2006 9:35

Pour un duplicate content sur un m'eme nom de domaine... que ce passe-t-il?


zapman
WRInaute discret
WRInaute discret
 
Messages: 101
Inscription: 8 Juin 2005

Message le Sam Mai 13, 2006 11:35

Pour un duplicate content sur un m'eme nom de domaine... que ce passe-t-il?

Google et MSN ne retiennent qu'une seule page parmi toutes celles qui sont dupliquées (ou considérées comme telles) :
"Les sites proposant plusieurs versions de chacune de leurs pages (versions imprimables, par exemple) ne seront pas pénalisés par ce filtre. Simplement, une seule de ces pages figurera dans les résultats. Pour choisir laquelle, il suffit d'ajouter la balise <meta name="robots" content="noindex"> dans les pages que l'on ne souhaite pas voir figurer dans les résultats. "

pubwebmaster
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 255
Inscription: 15 Sep 2004

Message le Lun Mai 15, 2006 9:30

Merci beaucoup pour ta réponse zapman...

je mettre tes conseils en application


wullon
WRInaute accro
WRInaute accro
 
Messages: 3918
Inscription: 18 Sep 2004

Message le Lun Mai 15, 2006 10:43

Très bon article, en particulier la FAQ. J'aime bien l'emploi du mot filtre.

Et je me corrige, il me semble que j'avais dit dans un post précédent que c'était rare que Google soit sec sur le duplicate content dans le cas de différents domaines. Pourtant, http://www.google.com/search?q=dedibox. Seul le .fr est présent, le .com pas du tout, d'ailleurs, à un moment c'était le contraire (on voit que Google avait du mal à "choisir", d'ailleurs, dedibox.fr est l'exemple de ce qu'il ne faut pas faire ^^).
Peut être aussi que Google se base sur d'autres infos (whois ?).

Par contre, je trouve la phrase "en cas de "Duplicate Content", Google choisit d'afficher les pages ayant le plus fort PageRank" un peu trop catégorique.

Je ne sais pas si c'est spécialement le PR (~ quantité+qualité des BLs) qui influe. Par exemple, pour dedibox, si le .com a 18k liens avec "a" en ancre, et le .fr 100 mais avec "dedibox" en ancre, ce ne serait pas le .fr qui serait gardé ?

Quelqu'un a des exemples de sites qui ont été filtré à tord ?

Parce que justement, le truc, c'est que cette histoire de duplicate fait peur, mais que finalement Google ne se trompe pas (ou se corrige vite).
Enfin il y a eu cette lettre ouverte aussi.


zapman
WRInaute discret
WRInaute discret
 
Messages: 101
Inscription: 8 Juin 2005

Message le Lun Mai 15, 2006 12:12

wullon a écrit:Je ne sais pas si c'est spécialement le PR (~ quantité+qualité des BLs) qui influe. Par exemple, pour dedibox, si le .com a 18k liens avec "a" en ancre, et le .fr 100 mais avec "dedibox" en ancre, ce ne serait pas le .fr qui serait gardé ?


Très bonne question. Il faudra que je fasse le test sur mes pages d'expérimentation :D


Si vous avez aimé cette discussion, partagez-la sur vos réseaux sociaux préférés :

Formation recommandée sur ce thème :

Formation REFERENCEMENT naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.

Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.

Lectures recommandées sur ce thème :

  • Similarité et duplicate content
    Cet outil vous permet de calculer la similarité entre 2 pages web. L'algorithme utilisé repose sur l'analyse des occurrences des mots (mais pas sur leur positionnement dans les pages). Google utilise cette notion à certains endroits dans son algorithme, mais de façon bien plus évoluée que ce petit outil... Avoir des pages trop similaires peut entraîner des problèmes d'indexation... Cet outil vous permettra peut-être de résoudre certains problèmes de contenus dupliqués.


Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 1 invité