Messages: 23075

Enregistré le: 19 Avr 2002

Message le Lun Mar 22, 2010 13:08

Le sujet étant de plus en plus au coeur des pb constatés par les WRInautes et tous ceux qui s'intéressent au référencement, j'ai décidé de constituer un dossier entièrement consacré au filtre de Google sur le duplicate content.

Bonne lecture et merci encore aux 5 participants !
J'espère que mon dossier vous plaira et vous sera utile...

Olivier
Haut
139 Réponses
Messages: 3049

Enregistré le: 27 Oct 2006

Message le Lun Mar 22, 2010 13:11

Merci Olivier,

après un premier coup d'œil, je sens qu'on va en renvoyer du monde sur ce dossier qui semble on ne peut plus clair :)
Haut
Messages: 1306

Enregistré le: 27 Avr 2003

Message le Lun Mar 22, 2010 13:29

Cette analyse va servir de référence.
Les incompréhensions sur le sujet découlent souvent du fait que le paramètre a évolué dans le temps.
Auparavant, c'était largement plus pénalisant puisque c'est maintenant plutôt une "non pondération" à la place d'une pénalité de laquelle il était compliqué de sortir.
Malgré les progrès de Google à propos du Dup, il reste tout de même un point épineux qui concerne la popularité des pages. Il est toujours possible de piquer du contenu et mieux se positionner que la page d'origine si la page "voleuse" est plus populaire.
Haut
Messages: 23075

Enregistré le: 19 Avr 2002

Message le Lun Mar 22, 2010 13:35

thickparasite a écrit:Auparavant, c'était largement plus pénalisant puisque c'est maintenant plutôt une "non pondération" à la place d'une pénalité de laquelle il était compliqué de sortir.


je pense qu'il y en a un paquet qui vont témoigner que c'est pas tout à fait ça :!:
disons que le résultat du filtre peut être -90% de trafic Google...

Je précise que j'essaierai de compléter le dossier avec les éléments que j'ai peut-être oubliés.
Enfin, que me conseillez-vous pour éviter qu'on me copie cet article (comme la plupart de mes articles) ? ce serait dommage qu'il génère des contenus dupliqués :roll:
Haut
Messages: 18187

Enregistré le: 23 Fév 2004

Message le Lun Mar 22, 2010 13:42

J'adore la capture d'écran d'illustration de l'article :mrgreen:
Haut
Messages: 2088

Enregistré le: 30 Avr 2006

Message le Lun Mar 22, 2010 13:54

Excellent 'tutoriel' et très bon choix d'y avoir adjoint plusieurs participants.

J'ai trouvé ça très intéressant de pouvoir avoir des visions différentes sur ce thème.
D'ailleurs, les réponses des participants aux questions ne se rejoignent pas souvent :-)

J'ajouterai que le "filtre" peut parfois être appliqué de manière plus faible (de l'ordre de 75% de baisse de trafic organique par exemple)

Pour la demande de ré-examen, je rejoins les avis sur le fait que cela n'est pas adapté à ce cas de figure.

Merci aux participants !
Haut
Messages: 2192

Enregistré le: 2 Avr 2005

Message le Lun Mar 22, 2010 14:38

bravo Olivier ! Ca, c'est du dossier !

Le problème du Contenu dupliqué me préoccupe depuis longtemps, d'autant que dans le cas de mes sites, une partie non négligeable des contenus n'est pas ma propriété et se retrouve de ce fait sur tous les sites de cinéma (synopsis, images, vidéos ...)

En ce qui concerne le contenu texte, en particulier le synopsis des films, celui-ci est plus ou moins imposé par le distributeur (synopsis officiel, qui parfois change dans le temps, comme peut changer l'office officielle ou la bande annonce officielle etc ...)

Allez sur un site cinéma, copiez le synopsis d'un film dans la barre de recherche de google et vous serais impressionné par le nombre de résultats.Malgré tout, de nombreuses pages contenant ce synopsis officiel ressortent sur une recherche sur le titre du film (j'ai vérifié certaine requêtes et je trouve jusqu'à 90% des 50 premiers résultats avec ce même synopsis)

Il ne semble donc pas que ces pages soient "filtrés/pénalisées".Peut-être tout simplement parce que le synopsis ne représente qu'une faible partie du contenu texte des pages, peut-être aussi parce que google n'applique pas la même échelle de "pénalisation" selon les thématiques.

Un exemple pour illustrer cette dernière hypothèse concerne les manuels des commandes linux. Tapez "man ls" par exemple dans google et vous verrez que la majorité des résultats sont des pages reprenant à l'identique et mot pour mot le résultat de la commande "man ls" de linux.

J'aimerais bien avoir vos avis la dessus :D
Haut
Messages: 1306

Enregistré le: 27 Avr 2003

Message le Lun Mar 22, 2010 14:50

WebRankInfo a écrit:je pense qu'il y en a un paquet qui vont témoigner que c'est pas tout à fait ça :!:
disons que le résultat du filtre peut être -90% de trafic Google...


C'est exact car il faut aussi parler du facteur temps. En l'occurrence, on peut même débattre sur l'éternité que Google met parfois à trier le Dup. Je pense notamment à l'application du rel="canonical" qui peut vraiment prendre longtemps... très longtemps avant de faire effet.
Bien souvent, les sites qui sont soi-disant pénalisés pour cause de Dup n'ont pas laissé le temps agir.
Évidemment, je ne parle pas des scrapers et autres tentatives de spam qui sont bel et bien pénalisés. Pour le commun des sites qui va avoir son contenu repris sous différentes URLs internes ou même ses articles repris ailleurs, je persiste dans la "non pondération" plutôt que pénalité à proprement parler.

Il y a aussi un autre sujet qui mérite d'être débattu. Cela concerne les recommandations de Google qui suggère de laisser crawler le Dup interne avant d'agir si jamais il ne s'en sort pas. Ils disent à la limite de mettre rel="canonical", mais pas de meta noindex ou blocage via robots.txt.
Pour ma part, je préfère largement prendre des précautions en amont.

Ah oui, un truc que je ne pense pas avoir lu dans l'article (ou alors j'ai pas vu/lu) concerne le fameux lien vers la source d'origine. C'est quand même le moyen le plus clean d'éviter un souci quand on reprend un texte déjà présent sur la Toile.
Haut
Messages: 7322

Enregistré le: 11 Déc 2007

Message le Lun Mar 22, 2010 14:59

fandecine a écrit:Allez sur un site cinéma, copiez le synopsis d'un film dans la barre de recherche de google et vous serais impressionné par le nombre de résultats.Malgré tout, de nombreuses pages contenant ce synopsis officiel ressortent sur une recherche sur le titre du film (j'ai vérifié certaine requêtes et je trouve jusqu'à 90% des 50 premiers résultats avec ce même synopsis)

Cela rejoint ce que j'avais déjà dit, mais pas précisé à Olivier pour son dossier. Au dela d'un certain nombre de copies, Google ne pénalise plus via ce contenu car celui-ci est considéré, disons, comme citation et peut donc être pertinent. Testez par exemple les conditions d'utilisations pour Adsense que Google nous a fait rajouter sur nos sites. Vous verrez que le résultat est très surprenant, on trouve des centaines de pages dans la SERP avant le fameux encart de filtrage.

Il ne semble donc pas que ces pages soient "filtrés/pénalisées".Peut-être tout simplement parce que le synopsis ne représente qu'une faible partie du contenu texte des pages, peut-être aussi parce que google n'applique pas la même échelle de "pénalisation" selon les thématiques.

Il est vrai aussi et Google l'avait déjà dit que le contenu dupliqué même en totalité sur une page, mais venant de différentes sources peut-être pertinent. C'est une source d'info différente des autres, cependant, c'est encore très aléatoire cette partie et la gestion de celle-ci par la filtre. Nul doute que ça ira en s'améliorant.
Haut
Messages: 7322

Enregistré le: 11 Déc 2007

Message le Lun Mar 22, 2010 15:01

thickparasite a écrit:Ah oui, un truc que je ne pense pas avoir lu dans l'article (ou alors j'ai pas vu/lu) concerne le fameux lien vers la source d'origine. C'est quand même le moyen le plus clean d'éviter un souci quand on reprend un texte déjà présent sur la Toile.

Ca rejoins une partie de ce que je disais sur le dossier. J'ai déjà eu le cas d'un site reprenant l'intro de mon article avec lien vers mon article et pour autant, c'est lui qui sortait sur les phrases dupliquées, mais aussi sur la requête visée. Bon ça commence à dater comme expérience, le filtre est peut-être réglé sur ce point depuis.

Qui test sur un site jeune de mettre son intro + lien sur Scoopeo par exemple pour voir qui ressortira sur Google ?
Haut
Messages: 1306

Enregistré le: 27 Avr 2003

Message le Lun Mar 22, 2010 15:44

Comme je dis dans mon premier message, il est toujours possible de se positionner devant la source d'origine.
Haut
Messages: 1302

Enregistré le: 15 Mai 2003

Message le Lun Mar 22, 2010 16:03

Bonjour à tous et merci à Olivier de m'avoir fait participer.

Bravo pour ce dossier pour le moins consistant. A part les longues diatribes d'Ybet, j'avais rarement vu aussi conséquent ;-)

Ce dossier est d'autant plus utile que, comme le fait remarquer 5 legs, les avis des uns et des autres divergent parfois. Sans doute parce que les cas vécus sont différents, mais aussi parce que Google a sans doute fait évoluer les choses au fil du temps. Nos retours ne sont que des expériences personnelles.

En résumé, je rejoins toutefois L.Jee et Laurent, il est toujours possible pour un site ayant une certaine autorité de se positionner avant la source d'origine.
Haut
Messages: 336

Enregistré le: 2 Juil 2008

Message le Lun Mar 22, 2010 16:08

excellent article olivier,
très détailler, je partage l'avis de sr..
le duplicate content à beaucoup évoluer au cours du temps donc nos expériences sont divers et les avis des conséquences d'une détection DC n'est pas la même..
merci ;)
Haut
Messages: 50

Enregistré le: 16 Fév 2010

Message le Lun Mar 22, 2010 16:56

Merci pour cet article bien documenté qui éclaire un peu les newbies comme moi .
Haut
Messages: 2884

Enregistré le: 28 Fév 2007

Message le Lun Mar 22, 2010 17:16

tiens! ça me rappelle qu'en 2008, lorsque j'avais pointé cette problématique,
Google serait donc dorénavant en mesure de détecter le duplicate content sur de petites parties de pages voire des petites parties de phrases (plutôt que d’effectuer l’analyse sur le contenu global d’une page). Il n’est donc plus possible de créer des pages “patchwork” reprenant un peu de contenu par ici, un peu de contenu par là et mélangeant le tout.

il y avait eu pas mal de ricanements (plus ou moins grinçants) ici et là:

- Google tue le mythe des pénalités pour duplicate content
- SEO + parano = pipo
- les futures pénalités de Google révélées
- mythe contenu dupliqué sur Google

heureusement certains avaient été moins prompts au démolissage.
Haut
Messages: 143

Enregistré le: 12 Mar 2010

Message le Lun Mar 22, 2010 18:07

Merci pour ce tutoriel, qui m'apporte bien des réponses.
Haut
Messages: 7322

Enregistré le: 11 Déc 2007

Message le Lun Mar 22, 2010 18:28

carole heinz a écrit:tiens! ça me rappelle qu'en 2008, lorsque j'avais pointé cette problématique,
Google serait donc dorénavant en mesure de détecter le duplicate content sur de petites parties de pages voire des petites parties de phrases (plutôt que d’effectuer l’analyse sur le contenu global d’une page). Il n’est donc plus possible de créer des pages “patchwork” reprenant un peu de contenu par ici, un peu de contenu par là et mélangeant le tout.

il y avait eu pas mal de ricanements (plus ou moins grinçants) ici et là:

- Google tue le mythe des pénalités pour duplicate content
- SEO + parano = pipo
- les futures pénalités de Google révélées
- mythe contenu dupliqué sur Google

heureusement certains avaient été moins prompts au démolissage.

j'avais reçu en 2008 le même accueil que toi et encore pire quand j'ai lancé Costaud et que j'ai été le premier clairement à obliger les descriptions uniques et a refuser la moindre phrase copiée. J'ai eu nombre de messages sur ces topics ou beaucoup s'amusaient à me faire passer pour un con en disant que le duplicate n'était que le fruit de mon imagination et que Google n'en tenait pas compte. Quel plaisir de voir que deux ans après, que tous ces détracteurs sont les premiers à te mettre en garde contre le duplicate ou a avoir sorti des annuaires a description unique ou modifier leurs CGU (gagné :mrgreen:)...
Haut
Messages: 2192

Enregistré le: 2 Avr 2005

Message le Lun Mar 22, 2010 19:11

carole heinz et L.Jee, c'est promis ! Demain, à la messe je brûle un cierge géant en votre nom :mrgreen:
Haut
Messages: 1302

Enregistré le: 15 Mai 2003

Message le Lun Mar 22, 2010 19:23

@ Carole, L.Jee
Vous vous en sortez bien, quand on voit ce que s'est pris Galilée ;-)
Haut
Messages: 7322

Enregistré le: 11 Déc 2007

Message le Lun Mar 22, 2010 19:32

On a jamais dit que le duplicate content était rond !
Haut
Messages: 20167

Enregistré le: 16 Déc 2005

Message le Lun Mar 22, 2010 19:34

Tu veux plutôt dire qu'il n'a pas été affirmé ici qu'il tournait autour de Google, non ? ;)
Haut
Messages: 7322

Enregistré le: 11 Déc 2007

Message le Lun Mar 22, 2010 19:40

Possible, me souviens pas de ce qu'a dit Galilée, j'y suis allé au pif :mrgreen:
Haut
Messages: 20167

Enregistré le: 16 Déc 2005

Message le Lun Mar 22, 2010 19:41

L.Jee a écrit:Possible


Pas "possible", mais "sûr"

Le "P", c'est Planet !
Haut
Messages: 9031

Enregistré le: 22 Nov 2003

Message le Lun Mar 22, 2010 23:43

fandecine a écrit:Le problème du Contenu dupliqué me préoccupe depuis longtemps, d'autant que dans le cas de mes sites, une partie non négligeable des contenus n'est pas ma propriété et se retrouve de ce fait sur tous les sites de cinéma (synopsis, images, vidéos ...)
...

Allez sur un site cinéma, copiez le synopsis d'un film dans la barre de recherche de google et vous serais impressionné par le nombre de résultats.Malgré tout, de nombreuses pages contenant ce synopsis officiel ressortent sur une recherche sur le titre du film (j'ai vérifié certaine requêtes et je trouve jusqu'à 90% des 50 premiers résultats avec ce même synopsis)

Un exemple pour illustrer cette dernière hypothèse concerne les manuels des commandes linux. Tapez "man ls" par exemple dans google et vous verrez que la majorité des résultats sont des pages reprenant à l'identique et mot pour mot le résultat de la commande "man ls" de linux.

Fandecine, me rappelle d'un post ou tu m'a envoyé boulé sur le duplicate en citant ton site de cinéma (mais t'en veux pas et ma réponse n'est surement pas négative).

Excellent article d'Olivier mais deux "notions" sont à ajouter pour comprendre pourquoi un site se fait casser et pas un autre (ou même pourquoi un site descend un peu et l'autre se fait litéralement casser).

D'abord une certaine notion de confiance d'un site. Plus il est gros (pas forcément en visiteur d'aillieurs) plus il a la chance de casser les autres copieurs ou copiés (Il n'y a pas de réelle notion de la page au niveau date pour Google). La deuxième est lié à des thématiques spéciales qui sont moins touchées que d'autres. Un composant d'ordinateur a plus de pages le concernant que de nombre de pages de critiques d'un site: les sites informatiques ont plus de chance d'être vérifié que les sites d'annonces de film (c'est une théorie) mais qui semble se vérifier.

Reste l'ancienneté du site mais surtout de la page. Deux sites avec le même article depuis longtemps sur la même page ont peu de chance d'être sanctionnés. Par contre, là où le problème apparaît, c'est quand le vieux site fait des modifs (contenu de la page, structure). Souvent c'est là que ca casse, comme si GG revérifiait toutes les pages du site
.
sr a écrit: A part les longues diatribes d'Ybet, j'avais rarement vu aussi conséquent ;-)
.

Désolé je suis plutôt bavarre.

sr a écrit:Ce dossier est d'autant plus utile que, comme le fait remarquer 5 legs, les avis des uns et des autres divergent parfois. Sans doute parce que les cas vécus sont différents, mais aussi parce que Google a sans doute fait évoluer les choses au fil du temps. Nos retours ne sont que des expériences personnelles.
.

Quelques tests aussi mais comme j'ai répondu plus haut à Frandecine, d'autres critères entrent en compte, sans compter aussi des trucs plus ou moins connus qui défavorisent une page. On analyse le duplicate content mais un tas d'autres critères (anciens et nouveaux) interviennent. On a beau être des bêtes (dans les deux sens), on ne vérifie à fait que quelques critères, juste trouver qu'une modif de page la fait monter ou descendre. Google doit bien en utiliser une centaine avec des pondérations. La cause n'est pas perdue mais c'est impossibkle à gagner.
Haut
Messages: 1366

Enregistré le: 14 Oct 2005

Message le Mar Mar 23, 2010 1:06

OTP a écrit:Tu veux plutôt dire qu'il n'a pas été affirmé ici qu'il tournait autour de Google, non ? ;)

On m'aurais mentit ??? :-D

@Olivier, Merci, très bel article.
Haut
Messages: 23075

Enregistré le: 19 Avr 2002

Message le Mar Mar 23, 2010 9:54

Merci pour vos bons commentaires, remerciements, RT et autres votes (quoique Scoopeo ça ne déchaine plus les foules) ;-)

J'ai complété l'article pour tenter d'expliquer comment on peut éviter le filtre DC. Comme d'habitude vos suggestions d'amélioration de mon dossier sont les bienvenues.
Haut
Messages: 512

Enregistré le: 24 Aoû 2005

Message le Jeu Mar 25, 2010 5:05

Il y a aussi le cas de duplicate content entre des pages d'un site web qui reproduit (avec l'accord de l'éditeur) le contenu (partiel) d'un livre qui se trouve ou, plus souvent, se trouve plus tard repris ds google books.

Si quelqu'un a des infos /liens à ce sujet, je suis intéressée, merci d'avance

.
Haut
Messages: 1541

Enregistré le: 21 Sep 2004

Message le Jeu Mar 25, 2010 6:15

merci pour ce dossier
au passage une interview fort intéressante de Matt Cutts, il y parle entre autres de duplicate content, on y apprend par exemple que le "jus" balancé à une page interne en duplicate n'est pas forcément perdu ou qu'une redirection 301 entraîne une baisse du pr
http://www.stonetemple.com/articles/interview-matt-cutts-012510.shtml
Haut
Messages: 23075

Enregistré le: 19 Avr 2002

Message le Jeu Mar 25, 2010 10:16

Oui fran6 on parle de cette interview de Matt Cutts dans une autre discussion du forum
Haut
Messages: 1302

Enregistré le: 15 Mai 2003

Message le Jeu Mar 25, 2010 10:30

Infos complémentaires, un article sur la détection du plagiat.
GG utilise sans doute des outils similaires :
http://www.atelier.fr/cyber-culture/10/24032010/plagiat-etudiant-texte ... xtor=RSS-2
Haut