Tout savoir sur le filtre Duplicate Content de Google

WRInaute accro
[quote="lafeeperle Merci encore pour ces réponses et l'intérêt que çà soulève.[/quote]
PS: la répétition des posts
n'est pas nécessaire. Au cas ou ta répétition passe sur deux pages, tu crée directement du ... duplicate content.
 
Nouveau WRInaute
Une info importante qui pourrait vous intéresser et que je viens de recevoir, je vais à ce sujet ouvrir un nouveau post, car vous êtes les acteurs du web, et êtes appelés à participer (bien que l'annonce du débat soit bien discrète). Mme Nathalie Kosciusko-Morizet lance une consultation publique , voir ici
 
WRInaute occasionnel
fort fort interressant, bravo pour la rédaction.
J'ai moi m^me un site qui en ce moment est filtré pour duplicate interne, si j'arrive à le sortir je vous tiens au courant de mes conclusions
 
Nouveau WRInaute
Finalement, après un mois de recul, je vous tiens au courant de l'avancée de nos pérégrinations.
Avoir avoir alerté, les pouvoirs publics, la gendarmerie qui n'a pas su qualifier notre plainte, contacté la DGCCRF, être allée jusqu'au cabinet de Madame la Ministre de l'économie numérique, contacté la FEVAD ou la plupart des gros vendeurs et autres comparateurs de prix ( qui se sont engagés auprès du gouvernement à respecter la charte déontologique imposée à leurs membres), tout ceci sans grand succès je dois dire, nous avons décidé de signaler à google via spamreport : https://www.google.com/webmasters/tools/spamreport?hl=fr_FR , une série de liens et de sites qui continuent à utiliser nos textes et images, pour rediriger via plate formes d'affiliations et market place, vers d'autres "GROS SITES" que nous ne citerons pas ici.
La situation a évolué et notre site reprend petit à petit la place qu'il mérite, avec 4000 références et plus de perles, nous le vallons bien , non?
Nous ne pouvons que conseiller à tous les sites victimes de duplicate, de signaler à google que leurs pages contiennent des données fausses ou érronées.

Merci de l'aide qu'ont pu nous apporter les membres de WRI, notamment à Patrick:
Rendez-vous dans quelques semaines pour faire un nouveau point.
 
Nouveau WRInaute
thickparasite a dit:
WebRankInfo a dit:
je pense qu'il y en a un paquet qui vont témoigner que c'est pas tout à fait ça :!:
disons que le résultat du filtre peut être -90% de trafic Google...

C'est exact car il faut aussi parler du facteur temps. En l'occurrence, on peut même débattre sur l'éternité que Google met parfois à trier le Dup. Je pense notamment à l'application du rel="canonical" qui peut vraiment prendre longtemps... très longtemps avant de faire effet.
Bien souvent, les sites qui sont soi-disant pénalisés pour cause de Dup n'ont pas laissé le temps agir.
Évidemment, je ne parle pas des scrapers et autres tentatives de spam qui sont bel et bien pénalisés. Pour le commun des sites qui va avoir son contenu repris sous différentes URLs internes ou même ses articles repris ailleurs, je persiste dans la "non pondération" plutôt que pénalité à proprement parler.

Il y a aussi un autre sujet qui mérite d'être débattu. Cela concerne les recommandations de Google qui suggère de laisser crawler le Dup interne avant d'agir si jamais il ne s'en sort pas. Ils disent à la limite de mettre rel="canonical", mais pas de meta noindex ou blocage via robots.txt.
Pour ma part, je préfère largement prendre des précautions en amont.

Ah oui, un truc que je ne pense pas avoir lu dans l'article (ou alors j'ai pas vu/lu) concerne le fameux lien vers la source d'origine. C'est quand même le moyen le plus clean d'éviter un souci quand on reprend un texte déjà présent sur la Toile.


Allo,

J'ai aussi lu qu'il était mieux de mettre rel="canonical" et d'enlever les NO-INDEX, NO-FOLLOW. Toutefois, j'ai une question sur les urls canoniques : Peut-on mettre comme url canonique l'url de la page courrante? Le truc, c'est que nous avons beaucoup de contenu dupliqué qui utilisent tous le même gabarit. Je mettrais l'url canonique dans le gabarit et ça affecterait toutes les variations de la page, mais ça toucherais aussi la page qui est pointée par l'URL canonique. Quelqu'un a essayé ça?

Merci,

Phil
 
WRInaute accro
j'ai eu du mal a arriver au bout c'était long mais instructif. Ce qui au passage viens de mettre a mal le sujet de Hibou57 en fichant une claque a la moyenne (humour bien sur)

Google serait donc dorénavant en mesure de détecter le duplicate content sur de petites parties de pages voire des petites parties de phrases (plutôt que d’effectuer l’analyse sur le contenu global d’une page). Il n’est donc plus possible de créer des pages “patchwork” reprenant un peu de contenu par ici, un peu de contenu par là et mélangeant le tout.

petites parties de pages voire des petites parties de phrases Avec ça et les limites liées a notre érudition, je pense qu'il y a un risque de saturation un jour car le vocabulaire n'est pas sans limite et la toile assez grande pour avoir toutes les combinaisons de mots possible.

Je serais curieux de savoir si une expérience du style "générateur de texte aléatoire" basé sur les, disons 15 000 mots de base de la langue française d'un 'erudi', monté de façon virale (url a accroissement automatique) donnerait un bon retour dans google.
 
WRInaute accro
tes
zeb a dit:
Je serais curieux de savoir si une expérience du style "générateur de texte aléatoire"

Au départ, c'est pas le duplicate content que GG a essayé de casser mais bien leslogiciels de traductions mal fait (l'idée semble de casser les "bricoleurs" au départ, c'est ensuite que le duplivate s'est fait casser).

C'est ensuite nque la similitude a cassé les sites.

Le référencement devient de plus en plus compliqué
 
WRInaute passionné
zeb a dit:
petites parties de pages voire des petites parties de phrases Avec ça et les limites liées a notre érudition, je pense qu'il y a un risque de saturation un jour car le vocabulaire n'est pas sans limite et la toile assez grande pour avoir toutes les combinaisons de mots possible.

600 mots, oui, pour le quidam moyen peut-être mais le webmaster n'est pas le quidam moyen, il connaît son site, son activité, son marché et est donc en mesure d'employer des mots très peu utilisés par le non-spécialiste (exemple de l'éleveur de chats, du botaniste, du développeur php ou n'importe quoi d'autre en fait!). à cela il faut rajouter les noms de marques, les noms propres etc. qui ne font pas partie des 60.000 entrées du Robert!

statistiquement on pourrait parler de p-liste; le nombre théorique de phrases de 250 mots différentes que l'on peut obtenir avec 600 mots = 600^250 (600 puissance 250 càd 600x600x600x...x600) ce qui est déjà tout à fait gigantesque voire astronomique (bien sur toutes ces phrases ne sont pas syntaxiquement/sémantiquement correctes loin de là)

donc, même avec 600 mots et une seule langue, la toile est très, très loin d'être assez grande pour contenir toutes ces possibilités ;)
 
WRInaute discret
Super article.
J'ai pas lu les 8 pages de la discussion, mais j'ai 2 question :

1. L'article ne parle pas des pages de TAGS
Les pages de tags sur un site genre monsite.com/tags/vacances monsite.com/tags/voyages monsite.com/tags/soleil etc vont lister les memes articles tagés sur plusieurs tags, et vont donc produire des centaines de pages de duplicate content ou near duplicate content

Que se passe til dans ce cas la ? Faut il limiter les TAGS pour limiter le dc ?

2. Pouvez vous confirmer que si on cite le lien de la source sur notre page quand on a fait un gros copié/collé, Google ne prend pas ca comme du dc?

THX
 
WRInaute accro
vivreadjerba a dit:
Super article.
J'ai pas lu les 8 pages de la discussion
tu aurais du
vivreadjerba a dit:
Faut il limiter les TAGS pour limiter le dc ?
évidemment
vivreadjerba a dit:
Pouvez vous confirmer que si on cite le lien de la source sur notre page quand on a fait un gros copié/collé, Google ne prend pas ca comme du dc?
je ne vois pas pourquoi ça ne serait pas du duplicate. En plus, du copier/coller sans autorisation, c'est du vol et ça, adsense, n'aime pas et tu risques d'être grillé
 
Nouveau WRInaute
Bonjour,

J'ai réfléchis de mon côté au Dupplicate Content, et même si je partage dans la plupart des cas les avis de Sylvain, Olivier, Patrick, Denis L.Jee, il est un phénomène que j'ai grand mal à expliquer, et peut-être l'un d'entre vous aura une explication.

Il s'agit des médias publicitaire pour les agences immobilières. Vu qu'en plus de concevoir des sites et de les référencer, on a créer un logiciel immobilier, je me permets de vous expliquer en deux mots le principe de la multidiffusion.

Différents éléments saisis dans le logiciel, comme le prix, la ville, la surface, et une seule et unique description. En moyenne sur nos logicielle, elle est composée de 500 mots. Ensuite à travers le logiciel, on diffuse vers en moyenne 8 médias publicitaires tels que Logic Immo, SeLoger, A vendre à Louer, Topannonces, Le Bon Coin et autres déclinaisons. Un format standart a été défini pour transférer les annonces appelé Polaris, ce qui fait que tous les sites ont a disposition les même informations.

Ma question est donc la suivante: sachant que ces différents sites trustent les premières pages des SERPs, est-ce que cela sous-entends qu'ils seraient considéré comme les créateurs des différents contenus, mais dans ce cas, le site individuel de chaque agence ne devrait-il pas descendre en flèche? Si j'en suis la logique du dupplicate, ils devraient être pénalisés car leurs pages sont composés à 85% de contenus dit "dupliqués". Or il se trouve que ce n'est clairement pas le cas, et que les agences ont le plus grand mal à passer devant sur un nombre de requête conséquent, du fait de la quantité de biens dont-ils dispose sur une ville.

Qu'en pensez-vous?
 
Olivier Duffez (admin)
Membre du personnel
Oui les très gros sites qui récupèrent ces contenus peuvent sortir devant et ne pas subir de pb de contenus dupliqués, en partie grâce à leur bonne notoriété aux yeux de Google.

Pour le reste de la question je n'ai pas compris car d'une part tu dis
"[les sites des agences] devraient être pénalisés [...] Or il se trouve que ce n'est clairement pas le cas"

et aussi :
"les agences ont le plus grand mal à passer devant "
 
Nouveau WRInaute
Je comprends la logique, mais du coup n'est-ce pas une remise en cause (même partielle) du DC, sachant qu'à partir d'un certain seuil de trustrank, cela signifierait que le site peut se permettre d'avoir énormément de contenu dupliqué. Ou faut-il y voir une forme de classification des sites, et une certaines tolérances pour les sites "médias" ou comparatifs. Question induite, quelle serait la conséquence pour un site comme WRI de dupliquer du contenu? Est-ce davantage pour se prévenir contre les "prochaines avancées" de google en matière de DC que vous préférez le bannir?

Ce que je voulais dire avec ma seconde question était la chose suivante: les sites des agences immobilière qui reprennent également ces même descriptions mais pour une centaine de bien et avec des fréquentation proche de 4000 visiteurs mensuels, ne pourraient-ils pas être sanctionné au niveau d'une page d'annonce car cette dernière existe également sur ces médias?

Le dernier élément était la conséquence du raisonnement pour vérifier que je ne commets aucune erreur. Un site qui possède 25 biens répartis sur 5 agences immobilière différentes sur un mot clef de type acheter maison Soultz aura plus de contenu et donc plus de chance d'obtenir les premières places sur des moteurs de recherche que la page "similaire" d'une agence qui n'aura que 5 biens de ce type dans cette ville.
 
WRInaute accro
dans le cas des sites sur lesquels l'agence met ses annonces, cela ne change rien que le visiteur passe par eux ou non, vu que les agences paient déjà pour se retrouver sur ce site. L'important étant d'avoir de la visibilité, que le visiteur vienne en direct ou non.
Après, le problème qui se pose c'est que si l'internaute ne trouve pas que l'annonce (sur laquelle les serp l'on conduit) correspond à ses souhaits, les gros sites vont le renvoyer sur d'autres annonces y ressemblant et ça peut être celle d'un concurrent.
Ensuite, sur une même requête, comme gg ne permet que 2 pages par site (sauf sitelink), le fait d'avoir son annonce qui apparait sur les gros sites fait qu'il restera moins de place pour la concurrence sur ce gros site.
 
Nouveau WRInaute
Entièrement d'accord avec toi, mais compte 200 à 300 € par média et par mois, 500 pour les plus chères,avec grosso modo, 8 gros acteurs sur le marché... ce qui fait que les clients essayent de plus en plus d'attirer un maximum de visiteur en direct.

La conclusion à laquelle on en est arrivé est assez simple, on va nous aussi lancé un support média, mais je m'interrogeais par rapport à ces différentes problématiques pour trouver le meilleur compromis, on a même pensé à demander deux descriptions différentes dans le logiciel, mais il n'est pas certain que cela porte ses fruits.
 
WRInaute accro
damiano a dit:
Je comprends la logique, mais du coup n'est-ce pas une remise en cause (même partielle) du DC, sachant qu'à partir d'un certain seuil de trustrank, cela signifierait que le site peut se permettre d'avoir énormément de contenu dupliqué.
Certains sites, on en connait des gros qui ont vu le trou à cause du duplicate content. Donc apparaitrait quand même que cela puisse être dangereux. Pourquoi, comment ? Aucune idée cependant, il y a a creuser ici. A vu de nez je taperai dans la proportion que représente ce contenu sur le site.
 
Nouveau WRInaute
Merci pour ta réponse L.Jee, et surtout, merci d'avoir partagé tes stats G.A avec nous. Je vais essayer d'inscrire nos 80 sites sur costaud, je pense en avoir pour 2, 3 mois de travail :)
 
Nouveau WRInaute
Merci pour ta réponse L.Jee, et surtout, merci d'avoir partagé tes stats G.A avec nous. Je vais essayer d'inscrire nos 80 sites sur costaud, je pense en avoir pour 2, 3 mois de travail :)
 
Nouveau WRInaute
Re: Tout savoir sur le filtre Duplicate Content de Google. Pb d'indexation!!!

Bonjour,

message aux experts du SEO ;-)
Du fait de la construction un peu particulière de notre site, nous avions un très grand nombre de pages indexées, beaucoup plus importants que le nombre de pages réelles. Problème : les query

Nous avons modifier le robot txt pour exclure ce paramètre + paramètres webmaster tools.

Depuis nous sommes passés en 1 mois de 45 000 pages à 6 000 (objectif 1500).
Depuis décembre le chiffre stagnait à 6000 et depuis 1 semaine, il est à nouveau en train de remonter : lundi 13 000 et ce jour (jeudi 19 01 2012) : 18 000.

Auriez vous une solution, une réponse? nous ne comprenons plus rien...

Merci d'avance
 
WRInaute discret
WebRankInfo a dit:
Le sujet étant de plus en plus au coeur des pb constatés par les WRInautes et tous ceux qui s'intéressent au référencement, j'ai décidé de constituer un dossier entièrement consacré au filtre de Google sur le duplicate content.

Bonne lecture et merci encore aux 5 participants !
J'espère que mon dossier vous plaira et vous sera utile...

Olivier

En relisant l'article, j'ai trouvé une faute de frappe,
je cite:
Eest-ce possible que le filtre de Google sur le contenu dupliqué s'applique aussi à des contenus presque dupliqués internes ?
Dans la partie "Contenus presque dupliqués internes"
Vu que le sujet a été déterrer, j'en profite :)
 
Nouveau WRInaute
Bonjour,

J'ai deux question sur les liens crées sur les communiqués de presse.

Déjà est-ce vrai qu'à présent les backlinks et le pagerank d'un site est beaucoup moins important qu'avant pour un bon référencement?

Aussi, On m'a dit qu'il fallait que j'écrive des communiqués de presse en créant des liens vers mon site sur des sites de communiqué de presse dont le pagerank est le plus élevé afin que les liens créés ont plus de valeur.

Or, lorsque j'écris un communiqué sur un site dont le PR de la home page est par exemple de 4, mon article (et donc mes liens) ne se retrouve jamais sur cette home page dont le PR est de 4, mais mon article se retrouve toujours sur une page du site de PR 0.

Est ce que mes liens ont quand même de la valeur dans la mesure ou mon article se situe dans l'une des page d'un site dont la page home est de 4 ou c'est seulement la page dans laquelle est publié mon site qui compte et dans ce cas là mes liens n'ont pas de valeur puisqu'ils se situent sur une page de PR0?

Merci de vos réponse. Alain.
 
WRInaute accro
alain099 a dit:
Déjà est-ce vrai qu'à présent les backlinks et le pagerank d'un site est beaucoup moins important qu'avant pour un bon référencement ?
Qu'avant quoi ? "Avant" il était très important pour les ignorants, maintenant il est négligé même par les idiots.

1/ les backinks sont le nerfs du positionnement et c'est pas prêt de changer (avec le social dans une moindre mesure aujourd'hui).
2/ le Pagerank reste et a toujours été un indicateur flou de la notoriéte d'un site car fort PR = beaucoup de BL vers le site.

Mais faire un bon référencement n'as jamais été une question de PR ou de nombre de lien. il est surtout important d'être référencé chez les "pointures" de ton thème et ceci de façon variée.

alain099 a dit:
lorsque j'écris un communiqué sur un site dont le PR de la home page est par exemple de 4, mon article (et donc mes liens) ne se retrouve jamais sur cette home page dont le PR est de 4, mais mon article se retrouve toujours sur une page du site de PR 0.
la propagation du PR dans un site ne se fait pas en temps réel, le PR de ta page est impossible a connaitre a l'avance.
Si on te conseille un site a fort PR c'est surtout car il y a plus de chance pour que le PR de la page ou se trouve ton lien soit plus élevé par la suite (le PR se répand dans le site via ses liens internes comme un fluide).

alain099 a dit:
Est ce que mes liens ont quand même de la valeur dans la mesure ou mon article se situe dans l'une des page d'un site dont la page home est de 4 ou c'est seulement la page dans laquelle est publié mon site qui compte
Un lien n'a pas que la valeur du PR qu'il transmet. Pour le PR qu'il envoie a ton site c'est la page où il est qui compte, mais avoir un lien même sur une page PR 0 d'un site de référence est plus envieux que le même lien sur une page PR4 d'un site inconnue et pas du tout trusté.

faut pas te focaliser sur le PR... c'est un peut un indicateur de vitesse sur une voiture, c'est bien pour savoir a combien tu roule mais ça ne détermine pas la qualité de ta conduite, c'est qu'un critère. Si maintenant tu veux "piloter" plus que "conduire" un compte tour moteur est plus important (bien qu'il ne face pas tout pour autant).

Si tu veux référencer (au sens ontologique du terme) il faut te faire connaitre sur les sites qui sont complémentaires de ton activité. regarde la toile comme une communauté et débrouille toi pour être présent là ou cette communauté s'exprime et se trouve. Si tu applique ce principe, tu te rendra compte qu'il est plus important pour ton SEO de te concentrer sur l'utilisateur et ses besoins et de fait tu finira par comprendre que certains sites e CP ne sont jamais visités par une internaute normal, idem pour certains annuaires etc ... Tu comprendra donc qui est interessant pour ton référencement.

Et met toi dans la tête pour finir qu'il y a des sites PR 1 ou 2 qui cartonnent sur leur secteur ... Bref le PR ...
 
WRInaute discret
Bonjour
je sais pas si ma question sera prise comme spam car c'est un ancien sujet.
bref : je demande si je fait la traduction d'un texte pour un site multilingue mon centenu sera pris par les moteurs de recherche autant que dupliqué?
merci
 
WRInaute passionné
As-t-on une idée de la longueur d'une chaine dans un mini texte de 400 caractères qui serait considérée comme DC?
J'ai ce même texte en haut de page, explicatif pour l'internaute, et la seule chose qui le différencie des autres pages suivantes est le numéro de page …

Je viens de prendre parti de le supprimer sur les pages suivantes, mais me reste ce meme texte entrecoupé du nom de la ville ou du département, soit deux chaines de 200 caractères identiques sur des centaines de pages.

Je ne sais pas si Google prenait cela pour du DC avant sur les pages suivantes, et si c'est aussi possible après cette motif d'avoir encore du DC ?

AVANT
Le début du texte (200 carac) => la ville page 1 (50 caract) => la suite du texte (200 carac)
Le début du texte (200 carac) => la ville page 2 (50 caract) => la suite du texte (200 carac)
Le début du texte (200 carac) => le département page 1 (50 caract) => la suite du texte (200 carac)
Le début du texte (200 carac) => le département page 2 (50 caract) => la suite du texte (200 carac)


MAintenant
- Le début du texte (200 carac) => la ville page 1 (50 caract) => la suite du texte (200 carac)
- la ville page 2
- Le début du texte (200 carac) => le département page 1 (50 caract) => la suite du texte (200 carac)
- le département page 2

Si vous avez faits des tests, ils sont les bienvenus ^^
 
WRInaute accro
50 caractère sur 450 soit 1.25% de changement sur 36 000 commune si c'est pas du DC c'est purement du contenu pauvre en tous cas qui passe pas les filtres de pages similaires.
 
Nouveau WRInaute
Merci Olivier,

après un premier coup d'œil, je sens qu'on va en renvoyer du monde sur ce dossier qui semble on ne peut plus clair :)
 
WRInaute passionné
ARF (modifié) ... sujet remonté par un spam ... a déplacer alors ou retirer ... on en parlera de tt façon ^^


Bonjour,

afin d'optimiser nos algorithmes de pertinence sur le moteur de recherche http://www.premsgo.fr , nous avons du faire "du ménage" dans les pages. Je ne sais pas si Google procède de la même façon, mais par logique, nous avons commencé a élaborer une approche en deux temps pour écarter le contenu dupliqué :
préalablement, chaque page est découpé en balises (les DIV, P, TABLE, TR TD, UL, LI ...) :

- chaque contenu entre deux balises est traité en MD5 (algo de cryptage qui réduit le contenu en une chaine de 32 caracteres toujour identique a celui ayant le meme contenu). Un ou des tableaux contient TOUS les contenus, sous forme de chaine MD5, un autre s'incrémente des chaines en double trouvé sur d'autres pages.
- Chaque contenu entre chaque balise est compressé en BLOB (champ binaire), un tableau de blob avec le vrai contenu est ainsi construit en parallèle des contenu en MD5.
- chaque balise est identifié (identifiant ID ou CLASSE, position ...)

Dans un premier temp, les chaines MD5 (strictement identique) en double son eliminé des pages.
Ensuite, un algo spécial tente de détecter dans les pages des contenus très proche. Si il y a trop de répétition, ce sont alors les blocs en BLOB qui sont comparés pour détecter des contenus très proches qui nous ont échapé.
C'est souvent le cas pour des menus répétitifs, mais dont un signe d'une page a une autre change ce qui ne donne pas le même code MD5.

Ces contenus entre balises identiques a 99% (ou plus) sont alors éliminé de toutes les pages.

Il ne reste que du texte "brut", parfois répétitif, mais qui reflète plus le contenu "intéressant" de la page, surtout pour analyse sémantique. Ce n'est pas parfait mais deja pas mal ...

Pour du DC a très grande échelle, il faut d'énormes ressources. Et puis a l'usage, on simplifie peu a peu. Nos 3 pauvres mac souffrent carrément ... on fait avec! Les disques SSD de 4To se remplissent vite, donc pour le DC inter-site, nous ne pouvons que nous limiter a l'exacte similitude des contenus dans des balises (comparaison des MD5).

Google, avec ses 2 millions de serveurs peut probablement aller plus loin, mais il y a des limites quand même.
 
WRInaute passionné
PS: le moteur n'est pas accessible en ce moment est reste toujours dans sa première version de test basique de 2015 pour le public. Les modifs seront annoncées et mises en ligne courant Septembre / Octobre (de cette année , je précise ^^).
 
WRInaute passionné
Re: Tout savoir sur le filtre Duplicate Content de Google. Pb d'indexation!!!

annec935 a dit:
Bonjour,
... Depuis décembre le chiffre stagnait à 6000 et depuis 1 semaine, il est à nouveau en train de remonter : lundi 13 000 et ce jour (jeudi 19 01 2012) : 18 000.

Auriez vous une solution, une réponse? nous ne comprenons plus rien...

Merci d'avance

Bonjour,
Il y a de nombreux data center ou les données sont stockées, il est tres fréquent que les données fassent le yoyo dans les SERP (résultats), mais c'est peu probable dans webmastertools. Toutefois, Google a tendance a considérer les pages innaccessibles comme temporairement indisponible seulement, alors selon les algorithmes qui se succèdent, cela peut provoquer des retour en arrière temporaire. Il faut attendre 6 mois sur des gros sites pour que ca commence a se stabiliser, en général.
 
Discussions similaires
Haut