Duplicate Content : le point sur ce que nous savons
11 messages
• Page 1 sur 1
Consultez la formation au REFERENCEMENT naturel Google de WebRankInfo / Ranking Metrics
-

zapman - WRInaute discret

- Messages: 101
- Inscription: 8 Juin 2005
Duplicate Content : le point sur ce que nous savons
Le "Duplicate Content" est le fait d'avoir 2 pages Web comportant le même contenu ou un contenu très proche.
Dans un tel cas, et pour éviter d'encombrer leurs résultats de recherche, les moteurs tels que Google élimine l'une des deux pages des résultats.
Le "Duplicate Content" est géré par un filtre et non par une pénalité. Il ne provoque pas de perte de PageRank (excepté pour le cas N°1 décrit ci-dessous), ni de "blacklistage" ou de "sandbox".
Pour éviter le cas le plus fréquent et le plus ennuyeux de "Duplicate Content", il est impératif que toutes les pages de votre site comportent des balises <Title> et <Description> différentes.
On peut distinguer 3 cas distincts de "Duplicate Content" :
1- Pages exactement identiques (à l'octet près)
Cas de sites miroirs. Google considèrera que la page ayant le plus fort PageRank est l'URL canonique. Il désindexera les autres pages et reportera leur PageRank sur la page retenue. Cela ne semble pouvoir se produire que si les pages identiques figurent sur des noms de domaine différents.
2- Pages similaires mais comportant des balises <TITLE> et <DESCRIPTION> différentes
Toutes les recherches portant sur le texte commun aux différentes pages donneront comme résultat la page ayant le plus fort PageRank. Les autres pages seront visibles en cliquant sur "relancer la recherche en incluant les pages ignorées". Elles figureront également dans les résultats des recherches portant sur leurs contenus originaux (ce qui diffère du texte commun).
3- Pages différentes mais comportant les mêmes balises <TITLE> et <DESCRIPTION>
Certaines pages peuvent sembler très similaires aux yeux des moteurs de recherche alors qu'elles semblent différentes aux yeux d'un humain. (en-têtes identiques, menus identiques, "footer" identique). Le fait qu'elles possèdent des balises identiques ne fait qu'aggraver la situation. Elles risquent de subir les mêmes problèmes que les pages similaires citées ci-dessus. Dans le pire des cas, il est même possible que leur contenu ne soit pas du tout indexé.
Le filtre "Duplicate Content" s'applique sur des pages et non pas sur la globalité d'un site.
Les pages concernées sont retirées des résultats mais ne sont pas désindexées. Si elles comportent une petite partie originale, on peut continuer à les retrouver par une recherche sur les mots de ce contenu original.
Lorsque le contenu d'une page est copié par un site indélicat, il arrive que Google conserve la page du copieur et retire celle de l'auteur. Google semble simplement privilégier la page ayant le plus fort PageRank à l'exclusion de toute autre considération.
Les sites proposant plusieurs versions de chacune de leurs pages (versions imprimables, par exemple) ne seront pas pénalisés par ce filtre. Simplement, une seule de ces pages figurera dans les résultats. Pour choisir laquelle, il suffit d'ajouter la balise <meta name="robots" content="noindex"> dans les pages que l'on ne souhaite pas voir figurer dans les résultats.
On lit souvent que deux pages doivent comporter moins de 70% de ressemblance pour échapper au filtre "Duplicate Content". Ce chiffre ne repose sur aucune base et ne résiste pas à l'expérimentation. Voir à ce sujet http://www.rankspirit.com/resultats-experimentation-duplicate.php
Source de cet article (comportant d'autres précisions) : http://www.rankspirit.com/duplicate-content.php
Dans un tel cas, et pour éviter d'encombrer leurs résultats de recherche, les moteurs tels que Google élimine l'une des deux pages des résultats.
Le "Duplicate Content" est géré par un filtre et non par une pénalité. Il ne provoque pas de perte de PageRank (excepté pour le cas N°1 décrit ci-dessous), ni de "blacklistage" ou de "sandbox".
Pour éviter le cas le plus fréquent et le plus ennuyeux de "Duplicate Content", il est impératif que toutes les pages de votre site comportent des balises <Title> et <Description> différentes.
On peut distinguer 3 cas distincts de "Duplicate Content" :
1- Pages exactement identiques (à l'octet près)
Cas de sites miroirs. Google considèrera que la page ayant le plus fort PageRank est l'URL canonique. Il désindexera les autres pages et reportera leur PageRank sur la page retenue. Cela ne semble pouvoir se produire que si les pages identiques figurent sur des noms de domaine différents.
2- Pages similaires mais comportant des balises <TITLE> et <DESCRIPTION> différentes
Toutes les recherches portant sur le texte commun aux différentes pages donneront comme résultat la page ayant le plus fort PageRank. Les autres pages seront visibles en cliquant sur "relancer la recherche en incluant les pages ignorées". Elles figureront également dans les résultats des recherches portant sur leurs contenus originaux (ce qui diffère du texte commun).
3- Pages différentes mais comportant les mêmes balises <TITLE> et <DESCRIPTION>
Certaines pages peuvent sembler très similaires aux yeux des moteurs de recherche alors qu'elles semblent différentes aux yeux d'un humain. (en-têtes identiques, menus identiques, "footer" identique). Le fait qu'elles possèdent des balises identiques ne fait qu'aggraver la situation. Elles risquent de subir les mêmes problèmes que les pages similaires citées ci-dessus. Dans le pire des cas, il est même possible que leur contenu ne soit pas du tout indexé.
Le filtre "Duplicate Content" s'applique sur des pages et non pas sur la globalité d'un site.
Les pages concernées sont retirées des résultats mais ne sont pas désindexées. Si elles comportent une petite partie originale, on peut continuer à les retrouver par une recherche sur les mots de ce contenu original.
Lorsque le contenu d'une page est copié par un site indélicat, il arrive que Google conserve la page du copieur et retire celle de l'auteur. Google semble simplement privilégier la page ayant le plus fort PageRank à l'exclusion de toute autre considération.
Les sites proposant plusieurs versions de chacune de leurs pages (versions imprimables, par exemple) ne seront pas pénalisés par ce filtre. Simplement, une seule de ces pages figurera dans les résultats. Pour choisir laquelle, il suffit d'ajouter la balise <meta name="robots" content="noindex"> dans les pages que l'on ne souhaite pas voir figurer dans les résultats.
On lit souvent que deux pages doivent comporter moins de 70% de ressemblance pour échapper au filtre "Duplicate Content". Ce chiffre ne repose sur aucune base et ne résiste pas à l'expérimentation. Voir à ce sujet http://www.rankspirit.com/resultats-experimentation-duplicate.php
Source de cet article (comportant d'autres précisions) : http://www.rankspirit.com/duplicate-content.php
Dernière édition par zapman le Jeu Mai 11, 2006 8:27, édité 1 fois.
-

dd32 - Modérateur

- Messages: 3387
- Inscription: 9 Sep 2005
Puisqu'on fait un point, tu me permets de rappeler ce topic ?
"Duplicate content" Existe t' il vraiment ?

"Duplicate content" Existe t' il vraiment ?
-

zapman - WRInaute discret

- Messages: 101
- Inscription: 8 Juin 2005
dd32 a écrit:Puisqu'on fait un point, tu me permets de rappeler ce topic ?
"Duplicate content" Existe t' il vraiment ?
Mais je vous en prie, chèr(e) ami(e), faites donc !
Et tant qu'on y est : >Ce topic aussi< : sur l’importance de la différentiation des balises meta et sur les risques propres aux sites dynamiques.
L'expérimentation citée dans le premier post tente de répondre à certaines des questions que posaient ces topics. Mais l'interprétation des résultats n'est pas toujours simple. En clair, la réponse à la question "qu'est-ce qui fait que Google détecte un Duplicate Content ou non" est loin d'être évidente.
Ce qui est sûr, c'est que la règle des 70%, qui est souvent citée, est tout à fait bidon.
- Rebelle bleue
- Nouveau WRInaute

- Messages: 2
- Inscription: 11 Mai 2006
Dans ta page de résultats, on voit que ce sont les pages qui ont le plus de ressemblance avec la page originale qui sortent dans les résultats. Comment explique-tu ça ?
-

zapman - WRInaute discret

- Messages: 101
- Inscription: 8 Juin 2005
Rebelle bleue a écrit:Dans ta page de résultats, on voit que ce sont les pages qui ont le plus de ressemblance avec la page originale qui sortent dans les résultats. Comment explique-tu ça ?
J'ai bien une explication, mais elle est un peu complexe :
- toutes les pages de l'expérimentation sont liées les unes aux autres à l'aide d'une liste de liens qui est toujours la même
- dans cette liste, les pages 90% (de ressemblance) et 80% sont placées en premier
- on peut supposer que ces pages récupèrent du coup un "PageRank" (ou quelque chose dans ce genre) plus important que les autres
- en cas de "Duplicate Content", Google choisit d'afficher les pages ayant le plus fort PageRank.
- pubwebmaster
- WRInaute occasionnel

- Messages: 255
- Inscription: 15 Sep 2004
Pour un duplicate content sur un m'eme nom de domaine... que ce passe-t-il?
-

zapman - WRInaute discret

- Messages: 101
- Inscription: 8 Juin 2005
Pour un duplicate content sur un m'eme nom de domaine... que ce passe-t-il?
Google et MSN ne retiennent qu'une seule page parmi toutes celles qui sont dupliquées (ou considérées comme telles) :
"Les sites proposant plusieurs versions de chacune de leurs pages (versions imprimables, par exemple) ne seront pas pénalisés par ce filtre. Simplement, une seule de ces pages figurera dans les résultats. Pour choisir laquelle, il suffit d'ajouter la balise <meta name="robots" content="noindex"> dans les pages que l'on ne souhaite pas voir figurer dans les résultats. "
- pubwebmaster
- WRInaute occasionnel

- Messages: 255
- Inscription: 15 Sep 2004
Merci beaucoup pour ta réponse zapman...
je mettre tes conseils en application
je mettre tes conseils en application
-

wullon - WRInaute accro

- Messages: 3918
- Inscription: 18 Sep 2004
Très bon article, en particulier la FAQ. J'aime bien l'emploi du mot filtre.
Et je me corrige, il me semble que j'avais dit dans un post précédent que c'était rare que Google soit sec sur le duplicate content dans le cas de différents domaines. Pourtant, http://www.google.com/search?q=dedibox. Seul le .fr est présent, le .com pas du tout, d'ailleurs, à un moment c'était le contraire (on voit que Google avait du mal à "choisir", d'ailleurs, dedibox.fr est l'exemple de ce qu'il ne faut pas faire ^^).
Peut être aussi que Google se base sur d'autres infos (whois ?).
Par contre, je trouve la phrase "en cas de "Duplicate Content", Google choisit d'afficher les pages ayant le plus fort PageRank" un peu trop catégorique.
Je ne sais pas si c'est spécialement le PR (~ quantité+qualité des BLs) qui influe. Par exemple, pour dedibox, si le .com a 18k liens avec "a" en ancre, et le .fr 100 mais avec "dedibox" en ancre, ce ne serait pas le .fr qui serait gardé ?
Quelqu'un a des exemples de sites qui ont été filtré à tord ?
Parce que justement, le truc, c'est que cette histoire de duplicate fait peur, mais que finalement Google ne se trompe pas (ou se corrige vite).
Enfin il y a eu cette lettre ouverte aussi.
Et je me corrige, il me semble que j'avais dit dans un post précédent que c'était rare que Google soit sec sur le duplicate content dans le cas de différents domaines. Pourtant, http://www.google.com/search?q=dedibox. Seul le .fr est présent, le .com pas du tout, d'ailleurs, à un moment c'était le contraire (on voit que Google avait du mal à "choisir", d'ailleurs, dedibox.fr est l'exemple de ce qu'il ne faut pas faire ^^).
Peut être aussi que Google se base sur d'autres infos (whois ?).
Par contre, je trouve la phrase "en cas de "Duplicate Content", Google choisit d'afficher les pages ayant le plus fort PageRank" un peu trop catégorique.
Je ne sais pas si c'est spécialement le PR (~ quantité+qualité des BLs) qui influe. Par exemple, pour dedibox, si le .com a 18k liens avec "a" en ancre, et le .fr 100 mais avec "dedibox" en ancre, ce ne serait pas le .fr qui serait gardé ?
Quelqu'un a des exemples de sites qui ont été filtré à tord ?
Parce que justement, le truc, c'est que cette histoire de duplicate fait peur, mais que finalement Google ne se trompe pas (ou se corrige vite).
Enfin il y a eu cette lettre ouverte aussi.
-

zapman - WRInaute discret

- Messages: 101
- Inscription: 8 Juin 2005
wullon a écrit:Je ne sais pas si c'est spécialement le PR (~ quantité+qualité des BLs) qui influe. Par exemple, pour dedibox, si le .com a 18k liens avec "a" en ancre, et le .fr 100 mais avec "dedibox" en ancre, ce ne serait pas le .fr qui serait gardé ?
Très bonne question. Il faudra que je fasse le test sur mes pages d'expérimentation
11 messages
• Page 1 sur 1
Formation recommandée sur ce thème :
Formation REFERENCEMENT naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.
Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.
Lectures recommandées sur ce thème :
- Le Duplicate-Content en question : un cas de duplicate content important non-pénalisé
- Sale duplicate content (pas content du tous !!!!!) !!!
- Duplicate content ou pas duplicate
- Que savons-nous sur le pagerank Google ? (traduction)
- [help] duplicate content
- Duplicate content possible ?
- duplicate content again
- pb duplicate content
- .FR + .COM = duplicate content
- duplicate content or not duplicate content ?
- Similarité et duplicate content
Cet outil vous permet de calculer la similarité entre 2 pages web. L'algorithme utilisé repose sur l'analyse des occurrences des mots (mais pas sur leur positionnement dans les pages). Google utilise cette notion à certains endroits dans son algorithme, mais de façon bien plus évoluée que ce petit outil... Avoir des pages trop similaires peut entraîner des problèmes d'indexation... Cet outil vous permettra peut-être de résoudre certains problèmes de contenus dupliqués.
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 1 invité


