Tout savoir sur le filtre Duplicate Content de Google

Consultez la formation au REFERENCEMENT naturel Google de WebRankInfo / Ranking Metrics

Firewave
WRInaute passionné
WRInaute passionné
 
Messages: 2295
Enregistré le: 26 Juil 2009

Re: Tout savoir sur le filtre Duplicate Content de Google

Message le Jeu Avr 29, 2010 22:26

J'ai lu les analyses que vous avez faites et je ne partage pas les conclusions. Pour moi ça reste des cas particuliers et dans l'absolu ce que je vois moi ce sont des sites qui copient et qui link comme des fous après une période de probation pour passer devant l'original et à chaque fois ça marche.

Après peut-être que tu as raison et que sur la durée on récupère sa place. Mais pour un site de e-commerce on ne peut pas se payer le luxe de rester au fond, même pas un peu. Ca coûte de l'argent, on perd du stock. Et il vaut mieux dans ce cas de figure rajouter/modifier du contenu et/ou rajouter des BLs sur les pages internes pour leur donner plus de poids que celles des copieurs.


Alaindeloin
WRInaute passionné
WRInaute passionné
 
Messages: 1545
Enregistré le: 8 Jan 2010

Re: Tout savoir sur le filtre Duplicate Content de Google

Message le Jeu Avr 29, 2010 22:28

Je n'ai fait aucun test, mais ça me semble logique pour notre ami GG que BL vers un site = vote de confiance...
Mais je fais confiance aux pros :D :D

ybet
WRInaute accro
WRInaute accro
 
Messages: 9031
Enregistré le: 22 Nov 2003

A

Message le Dim Mai 02, 2010 21:31

Olivier a positionné le problème, on va voire maitenant ce qui a déjà été testé, par moi et par d'autres (certains ont déjà répondus mais en deux ans, j'ai aussi beaucoup échangé de MP avec des gros et de petits webmasters de WRI et autres pour essayer de trouver des solutions quand ca vous tombe dessus, qui ont marché ou non d'aillieurs). Je reprend aussi ce qui a été fait en tests (quelques pages qui réagissent sur une requête farfelue n'ont jamais été une réelle base en référencement, juste une idée de direction).
PS: désolé sir Firewave croit que j'ai juste analysé des cas particuliers mais les tests sont fait sur des vrais sites plus ou moins sanctionnés (j'ai jamais supporté les labo de biologies en humanités, disséquer une souris "morte" pour voire des espèces de maladies du rein à 15 ans n'a jamais fait un médecin de 15 ans). Pour retrouvé tous les posts, c'est impossible (faudrait Madrileno en 4X). Mais pas non plus tout confondre, il y a deux ans, GG a nettement modifié son algo, pour le duplicate mais aussi d'autres problèmes (genre les liens répétitifs à outrance, ce qui est le cas de la feeperle (communiqu"é en MP).

1. [tests] Le coup des liens, on l'a essayé avec trois pages sur mon site principal ybet.be. Le première dupliquée envoyait des liens vers les deux autres sur une requête farfelue. E-kiwi avait envoyé un lien vers une des deux pages barrée et ... le PR (à l'époque) était passé de cassé à 0 mais la, page restait invisible (à peine sur résultats complémentaires. Pas un petit site, un d'actualité si je me souvient ... plutôt de confiance.
2. [+/- tests]. Un site qui n'existe plus reprenait une phrase standard pour les dupliqués dans les annuaires. Par essais, j'ai repris dans le café de WRI cette phrase reprise dans plusieurs descriptifs de site (c'était en partie un annuaire). Celui qui s'est encore plus écrasé est le site original. QUAND JE PARLE DE SITE DE CONFIANCE, c'est pas pour le plaisir de mettre de mots ...
3. [réel] Pour les annuaires, ceux qui ressortent avecles recherches entre "" pour des descriptions dupliquées sont quasiment toujours les mêmes (à peine une dizaineà) et ... tous les autres ont sauté . L'Jee a aussi montré dans ses posts que la modif pouvait cassé un site (pas que les annuaires): http://forum.webrankinfo.com/duplicate-content-peut-couter-tres-cher-t ... 21831.html et http://forum.webrankinfo.com/sortir-une-penalite-pour-duplicate-conten ... 24141.html (comment il a sorti un annuaire de la panade).
4. Copyscape (puisqu'il est cité par Olivier). Quelques posts au dessus, j'ai mentionné 3 sites. Le premier -http://www.users.skynet.be/ybet fait mùaitenant 200 VU par jours mais il a 10-11 ans même s'il n'est plus mis à jours. Pourtant, il a cassé ybet.be (dans les 8000) qui a 6-7 ans sur des chapitres complets et materiel-informatique.be (+5 ans) sur des pages complètes. J'ai essayé en deux ans de modifier les phrases (genre conjugaison, synonymes, ....) ca bougeait pas réellement jusqu'au moment ou en avril - mai, les deux "nouveaux se sont fait cassés sur des parties entières. J'ai essayé les redirections 301 dans le header (la seule solution dans l'hébergement du FAI) pendant deux mois et ... n'importe quoi. <Finalement, j'ai remis les pages, supprimé titre et description avec un gros lien vers ybet.be. C'est seulmement là que GG a ressorti les pages cassées des deux autres sites.
5. Les copieurs. Je laisse facilement à distance tous les sites gratuits qui copient sans discuter mes notes (y compris adresses drirectes vers mes images. Pour les images, j'ai essayé deux directions. La première est de modifier l'adresse sur mes sites et de remplacer celle qui apparaît sur l'autre site un truc genre une image reprenant un texte "je suis un sale copie* eur du si*te ...) .Ca n'a pas déclassé le copieur. J'ai éssayé aussi le coup du commentaire dans les images avec l'adresse du site. Non seulement GG n'en n'a pas tenu compte pour les copieurs mais à même (il me semble) déclassé mes propres pages. Au passage, un farceur africain met en ligne toutes les pages pârlant de réseau (les unes à la suite de l'autres) d'un dictionnaire informatique (mater...). Et c'est le site original qui casse (Demandé de les enlevé, ce qu'il a fait avant de mettre en ligne à la suite de l'autre les pdf d'ybet qui a cassé l'autre - c'est quand quon a le droit aux smyleys) . Bon, j'ai bricolé sur le serveur et perdu 70 visuiteurs de la côte d'Ivoire bloqués par Apache). Mais reste ce site et un autre ... Contacté les administrateurs (américains) et comme lafeeperle, pas réellement de tenter un procès (en plus là c'est aux Etats Unis). Devinez la réponse de GG (puisque le deuième est son brol de partage d'information), pour une action en justice (avant de commencer), comptez 10.000 € (sans commentaires pour GG, ca me donne déjà une idée de sa "gestion du duplicate"). Comme mentionné plus haut, oublir copyscape (j'ai longtemps essayé), l'algo de GG est nettment au-dessus.

Je sais, je suis bavard et négatif (du mois sur WRI). Ca c'est pour les points négatifs. Maitenant, qu'elles sont les pistes qui ont "marché". Un gros annuaire est sorti il ya deux ans sans ... rien faire. (Génial mais c'est un cas à part).
1.les annuaires qui ont modifé les descriptions de quasiment tous les sites sont passés aussi (le témoignage de L'Jee mais aussi la nouvelle m"éthode d'inscription d'Hawkeyes).
2. les sites de vente en ligne (les petits) se sont fait cassés par E-bay, webmar* et autres en mettant les mêmes descriptions le plus souvent. Dans l'hiver, toujours par MP, j'en ai "sauvé deux" qui ont simplement supprimé quelques annonces mauis surtout complètement modifé le titre et la description sur ces sites. Au passage, pour un site d'agence immobilière, les directives sont quaré&ment de créer un nouveau titre et des cription, d'une part sur le site et pour tous les autres (sites d'annonces) une autre ... qu'ils se battent entre eux sur GG n'est pas mon problème mais le réel site est protégé
3.(c'est pas ma direction mais elle a été testé par d'autres et semble marché le plus souvent), la page a été renommée et le contenu complètement modifié (sans rediection de l'ancienne).
4. Une citation. Pour le premier article des pénalités, je m'étais arrangé pour que les pages de mes articles soient vconnus avant de mettre les conclusions sur WRI. Celle qui est le mieux passé est -http://www.ybet.be/news-fiche.php?numero=6 reprenant une citation du boss de WRI mais pas dans le texte, clairement au niveau html. Pour avoir analysé d'autres sanctions (le duplicate est une partie), ne mettez pas le lien en plein texte mais bien délimité dans le code html (la page est maintenant celle qui sort).
5. J'ai pas à revenir sur les liens "copains", ...http://forum.webrankinfo.com/les-liens-aident-ils-referencement-t117678.html (on évite de mettre des liens pour les liens, c'est un test en cours mais c'est juste les lien - GG n'analyse pas le serveur, le webmaster via le compte GG, le compte adsense, ..... J'avoue, on a tout essayé et comme dis par je sais plus qui l'année dernière "j'adore comment ybet joue avec GG" mais je joue pas, les tests de moi comme d'autre sont fait sur des sites qui tournent ou devraient tourner). Au passage, trop de liens "copains" entre deux sites tue les deux mais sans, le nouveau décole pas.

Reste les idées pour corriger les dégâts (je parle pour des sites standards). Un vieux site copié n'a aucun risque tant qu'il ne modifie .... rien (pas même la structure de liens), dès qu'il modifie quelque chose (y compris le simple header), le robot vient faire un tour et c'est lui (l'origianl) qui tombe. (je sais c'est fdébit mais c'est comme celà).
Copié pâr un autre site, là ca commence mal. La première chose est de contacter le webmaster gentiment pour lui demander de l'enlever. Si c'est un hébergement gratuit (du moins en France et en Belgique), pas de réponse, directement l'hébergeur (ce sont eux qui virent qurément le site. Si c'est un site avec nom de domaine, généralement, le type sait pas vos preuves et va pas trop discuter non plus sauf .... Ben là, les sauvegardes par huissier (j'ycrois guère) mais le commentaire dans les images est ausi une solution (pas pouyr GG comme mentionné plus haut). Le contenu duplicate doit disparaître. Pas les moyens juridiques ou financiens pour faire supprimé la page copiée .... On ne modifie pas sa page! (au passage on ne met pas de liens externes dessus pour des petits sites). Le résultat est pire pour GG, la modif le fait revenir et retrouve des restes de structures identiques (ce qui vous envoit comme copieur et ... contrefaçon pour l'algo). L'algo réagit comme si c'était vous le copieur .... et c'est l'entièreté du site qui descend. La seule réelle solution est de passé en confiance pour GG, quelques liens (j'ai dis quelques) vers des pages NON SANCTIONNEES, et pas genre acheté ou de forums ou d'annuaires qui permettent plusieurs liens vers les pages internes (je parle de costaud.net puisque j'ai aussi essayé - je casse pas son superbe annuaire, juste je donne quasiment toutes les pistes qui ont été testées -).

En gros, il n'y a pas de potion magique pour le duplicate (pour en sorir), des "bonnes pistes" testées par un bonne trentaine de webmasters sur (on va dire) une petite 200 sites (pour les liens vers les sites et pages, on a beaucoup bossés, avec des sites surement pas liés par les webmasters, tous des sites existants depuis pas mal de temps, des techniques qui semblent propres pour GG).

MAIS
1. vente en ligne, les titres et descriptions doivent être différents entre VOTRE site et ceux des annonces (on laisse les loups d'Internet se dévorer entre eux)
2. Annuaire, à moins d'être TRES gros, pas de description copiées
3. Pour les sites standards, des phrases à vous .... Un truc m'a étonné sur mon site principal, toutes les news sont cassées sauf -http://www.ybet.be/news-fiche.php?numero=27 (ca change des annonces standards informatiques habituelles). J'ai aussi pensé que des GG boys (ou girls) lisaient les pages mais c'est quasiment impossible, GG est un simple programme. Tout ce qui a l'air original au niveau construction de page, vocabulaire passe. (Si un webmaster linguite peut essayer de mettre une page qui a l'air d'être du français mais réellement incompréhensible pour un francophone .. je suis sur qu'elle passera).

Attention, la structure de navigation peut aussi cassé un site en duplicate (le site de lafeperle est de ceux là mais je pense avoir déjà analysé son site avec un autre pseudo), tous les problèles de "pénalités" ne sont pas que le duplicate content.

Tiens pour une fois, je signe un post
Patrick, ybet

webneime
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 5
Enregistré le: 20 Aoû 2009

Re: Tout savoir sur le filtre Duplicate Content de Google

Message le Lun Mai 03, 2010 11:14

Très utile ce dossier ainsi que ce nouveau filtre.

Moi ce qui me faire peur dans ce filtre quand même, c'est la possibilité qu'il supprime le site éditeur du contenu original en premier.

Enfin bon, faut faire confiance au algo Google :)

Tiu13
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 0
Enregistré le: 30 Mar 2010

Re: Tout savoir sur le filtre Duplicate Content de Google

Message le Lun Mai 03, 2010 20:08

Bonjour,

En feuilletant WRI, je tombe sur cet article qui m'a attiré fortement l'attention. Je suis bien novice mais me permets qd même la question.

Dans le site que je suis en train de réaliser, chaque page reprends une petite phrase explicative sur l'orthographe d'un mot qui est un de mes mots clés principaux. L'idée était de bien référencer les 3 versions du mot clé.
"La Cœlioscopie s’écrit parfois célioscopie ou coelioscopie, mais on se réfère à la même technique Urologique."

Il y a-t-il un risque de Duplicate ?

Merci d'avance


L.Jee
WRInaute accro
WRInaute accro
 
Messages: 7315
Enregistré le: 11 Déc 2007

Re: Tout savoir sur le filtre Duplicate Content de Google

Message le Lun Mai 03, 2010 20:33

Non ;)

lafeeperle
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 6
Enregistré le: 7 Aoû 2009

Re: Tout savoir sur le filtre Duplicate Content de Google

Message le Lun Mai 03, 2010 21:51

webneime a écrit:Très utile ce dossier ainsi que ce nouveau filtre.

Moi ce qui me faire peur dans ce filtre quand même, c'est la possibilité qu'il supprime le site éditeur du contenu original en premier.

Enfin bon, faut faire confiance au algo Google :)


Pour un annuaire, un site de "texte" ce n'est peut être pas dramatique, maintenant un catalogue de 1000 références, repris 20 fois sur 20 sites comparateurs ou 20 market place , au milieu de 500 000 autres références, c'est forcément le "petit site" qui disparait, puisque c'est 100% de ses textes qui sont dupliqués... Les gros sites eux sont protégés puisque 100% de leur catalogue ne peut pas être repris.... l'algorithme de google est faussé dans ce cas. De plus Google en cas de multiples résultats ne propose que 2 ou 3 pages, si le visiteur ne va pas au delà de la première page ( et vous savez comme moi que c'est le cas de 95 % des personnes qui font des recherches) c'est foutu, alors combien d'après vous vont aller cliquer sur le bas de la 3ème page pour trouver un article?

ybet
WRInaute accro
WRInaute accro
 
Messages: 9031
Enregistré le: 22 Nov 2003

Re: Tout savoir sur le filtre Duplicate Content de Google

Message le Mar Mai 04, 2010 1:25

lafeeperle a écrit:Pour un annuaire, un site de "texte" ce n'est peut être pas dramatique


Je sais chacun défend sé chapelle mais une petite idée pour les dégats chez eux aussi -http://www.ybet.be/news-fiche.php?numero=3 dans les graphiques, (descendre eun dessous ), on parle bien de 200.000 visiteurs par jours

lafeeperle a écrit: maintenant un catalogue de 1000 références, repris 20 fois sur 20 sites comparateurs ou 20 market place , au milieu de 500 000 autres références, c'est forcément le "petit site" qui disparait

Oui et non, d'abord, à chaque chngement de site (structure, contenu, lien, .... le robot refait un tour et reteste pour le duplicate (sinon il ne resterait pas beaucoup de sites sur Internet pour GG). (J'avoue avour communiqué avec leffeperle mais aussi avec fireweave par MP) C'est une des raison de ton déclassement , "aidé" par la nouvelle structure de ta versio de site (justement, je donne des formations webmaster et c'est ce qui a été donné ce soir, ... la structure des sites en fonction des liens).


lafeeperle a écrit:Les gros sites eux sont protégés puisque 100% de leur catalogue ne peut pas être repris....


Te rassure, à part quelques uns qui sont juste avantagés (et encore), aucun site n'est protégé (à part youtube racheté par GG et wikipedia [mauvaise langue o]nprobablement que GG espère le racheter [mauvaise langue off]).
Le positionnemen,t est un algorytme mathématique, c'est pas des avantages pour un ou pour l'autre. Les chou chous de GG, c'est une espèce de myte.

Dans ton cas, te suggère de poster sur ton site des demandes d'explications dans http://forum.webrankinfo.com/referencement-google.html en metionnant l'adresse de ton site , d'autres donneront aussi des explications pour ton site, ses problèmes et d"éfauts mais aussi ce qui doit être modifié.

Tiu13
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 0
Enregistré le: 30 Mar 2010

Re: Tout savoir sur le filtre Duplicate Content de Google

Message le Mar Mai 04, 2010 8:02

L.Jee a écrit:Non ;)

Merci à toi pour cette réponse nette, sans bavures et à l'efficacité redoutable , lol ...

lafeeperle
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 6
Enregistré le: 7 Aoû 2009

Re: Tout savoir sur le filtre Duplicate Content de Google

Message le Mar Mai 04, 2010 10:56

ybet a écrit:
lafeeperle a écrit:Pour un annuaire, un site de "texte" ce n'est peut être pas dramatique


Je sais chacun défend sa chapelle mais une petite idée pour les dégâts chez eux aussi -http://www.ybet.be/news-fiche.php?numero=3 dans les graphiques, (descendre en dessous ), on parle bien de 200.000 visiteurs par jours
Réponse, je dirais plutôt chacun est dans le même bateau, ce que je voulais dire c'est, mais encore une fois je ne suis pas spécialiste et ce forum à pour raison d'exister l'entraide des webmasters, qu'il y a peu de chance qu'un annuaire soit copié ou repris à 100%, mais peut-être est-ce que je me trompe.
lafeeperle a écrit: maintenant un catalogue de 1000 références, repris 20 fois sur 20 sites comparateurs ou 20 market place , au milieu de 500 000 autres références, c'est forcément le "petit site" qui disparait.

Oui et non, d'abord, à chaque changement de site (structure, contenu, lien, .... le robot refait un tour et reteste pour le duplicate (sinon il ne resterait pas beaucoup de sites sur Internet pour GG). (J'avoue avoir communiqué avec lafeeperle mais aussi avec fireweave par MP) C'est une des raison de ton déclassement , "aidé" par la nouvelle structure de ta version de site (justement, je donne des formations webmaster et c'est ce qui a été donné ce soir, ... la structure des sites en fonction des liens).
J'ai bien compris cette info et je vais m'appliquer à suivre ces bons conseils, et je t'en remercie "publiquement"

lafeeperle a écrit:Les gros sites eux sont protégés puisque 100% de leur catalogue ne peut pas être repris....

Ce que j'ai voulu dire c'est qu'il est plus difficile de reprendre 100 % d'un catalogue de 500 000 références (genre La redoute ou la Fnac), qui plus est est mis à jour et modifié quotidiennement par une équipe de professionnels. Ils sont effectivement "protégés" du risque que leur contenu soit considéré comme du duplicate.

Te rassure, à part quelques uns qui sont juste avantagés (et encore), aucun site n'est protégé (à part youtube racheté par GG et wikipedia [mauvaise langue o]probablement que GG espère le racheter [mauvaise langue off]).
Le positionnement est un algorithme mathématique, c'est pas des avantages pour un ou pour l'autre. Les chou chous de GG, c'est une espèce de mythe.
C'est également ce que je pense, mais un algorithme, c'est simplement "bête et méchant", d'où l'intérêt de cette conversation, comprendre pourquoi et comment Google considère le DC, en l'occurrence: Eviter de transmettre son catalogue a des "pseudo revendeurs" qui revendent tout, y compris des visites (adsense, affiliations et tutti quanti), et multiplient ainsi le risque de voir leur site "pure player" (car un commerçant "brick and mortage" ne court pas ce risque) "blacklisté ou déclassé" par google qui va retrouver 100% de votre contenu au milieu de 10% (plus ou moins) de contenu de dizaines de sites ayant "pignon sur rue", vous savez ceux parmi les "plus importants en France", les mêmes qui avec des programmes automatiques se positionnent sur VOS mots clés dans Adwords...mais je ne donnerai pas de noms, non non

Dans ton cas, te suggère de poster sur ton site des demandes d'explications dans http://forum.webrankinfo.com/referencement-google.html en mentionnant l'adresse de ton site , d'autres donneront aussi des explications pour ton site, ses problèmes et défauts mais aussi ce qui doit être modifié.

J'avais déjà posté il y a quelques temps, obtenu quelques réponses, mais bien peu par rapport à maintenant. Pour le référencement, comme cité précédemment, je suis passée par une agence, puis une seconde agence, puis maintenant une troisième depuis peu, nous verrons ce qu'il en est dans quelques temps, si "DIEU" (alias GG) prête vie à notre petite boutique
Je vais de ce pas visiter les autres posts du forum que tu me conseille: http://forum.webrankinfo.com/referencement-google.html , peut être pourrais-je y trouver des infos, voir aider quelques personnes. Merci encore pour ces réponses et l'intérêt que çà soulève.

ybet
WRInaute accro
WRInaute accro
 
Messages: 9031
Enregistré le: 22 Nov 2003

Re: Tout savoir sur le filtre Duplicate Content de Google

Message le Mer Mai 05, 2010 10:19

[quote="lafeeperle Merci encore pour ces réponses et l'intérêt que çà soulève.[/quote]
PS: la répétition des posts [quote] n'est pas nécessaire. Au cas ou ta répétition passe sur deux pages, tu crée directement du ... duplicate content.

lafeeperle
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 6
Enregistré le: 7 Aoû 2009

Re: Tout savoir sur le filtre Duplicate Content de Google

Message le Ven Mai 07, 2010 6:58

Une info importante qui pourrait vous intéresser et que je viens de recevoir, je vais à ce sujet ouvrir un nouveau post, car vous êtes les acteurs du web, et êtes appelés à participer (bien que l'annonce du débat soit bien discrète). Mme Nathalie Kosciusko-Morizet lance une consultation publique , voir ici

Neillys
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 476
Enregistré le: 15 Juil 2008

Re: Tout savoir sur le filtre Duplicate Content de Google

Message le Lun Juin 07, 2010 17:18

fort fort interressant, bravo pour la rédaction.
J'ai moi m^me un site qui en ce moment est filtré pour duplicate interne, si j'arrive à le sortir je vous tiens au courant de mes conclusions

lafeeperle
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 6
Enregistré le: 7 Aoû 2009

Re: Tout savoir sur le filtre Duplicate Content de Google

Message le Lun Juin 07, 2010 19:33

Finalement, après un mois de recul, je vous tiens au courant de l'avancée de nos pérégrinations.
Avoir avoir alerté, les pouvoirs publics, la gendarmerie qui n'a pas su qualifier notre plainte, contacté la DGCCRF, être allée jusqu'au cabinet de Madame la Ministre de l'économie numérique, contacté la FEVAD ou la plupart des gros vendeurs et autres comparateurs de prix ( qui se sont engagés auprès du gouvernement à respecter la charte déontologique imposée à leurs membres), tout ceci sans grand succès je dois dire, nous avons décidé de signaler à google via spamreport : https://www.google.com/webmasters/tools/spamreport?hl=fr_FR , une série de liens et de sites qui continuent à utiliser nos textes et images, pour rediriger via plate formes d'affiliations et market place, vers d'autres "GROS SITES" que nous ne citerons pas ici.
La situation a évolué et notre site reprend petit à petit la place qu'il mérite, avec 4000 références et plus de perles, nous le vallons bien , non?
Nous ne pouvons que conseiller à tous les sites victimes de duplicate, de signaler à google que leurs pages contiennent des données fausses ou érronées.

Merci de l'aide qu'ont pu nous apporter les membres de WRI, notamment à Patrick: http://forum.webrankinfo.com/ybet-u3722/et...
Rendez-vous dans quelques semaines pour faire un nouveau point.

phfle1
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 0
Enregistré le: 22 Juin 2010

Re: Tout savoir sur le filtre Duplicate Content de Google

Message le Mar Juin 22, 2010 16:38

thickparasite a écrit:
WebRankInfo a écrit:je pense qu'il y en a un paquet qui vont témoigner que c'est pas tout à fait ça :!:
disons que le résultat du filtre peut être -90% de trafic Google...


C'est exact car il faut aussi parler du facteur temps. En l'occurrence, on peut même débattre sur l'éternité que Google met parfois à trier le Dup. Je pense notamment à l'application du rel="canonical" qui peut vraiment prendre longtemps... très longtemps avant de faire effet.
Bien souvent, les sites qui sont soi-disant pénalisés pour cause de Dup n'ont pas laissé le temps agir.
Évidemment, je ne parle pas des scrapers et autres tentatives de spam qui sont bel et bien pénalisés. Pour le commun des sites qui va avoir son contenu repris sous différentes URLs internes ou même ses articles repris ailleurs, je persiste dans la "non pondération" plutôt que pénalité à proprement parler.

Il y a aussi un autre sujet qui mérite d'être débattu. Cela concerne les recommandations de Google qui suggère de laisser crawler le Dup interne avant d'agir si jamais il ne s'en sort pas. Ils disent à la limite de mettre rel="canonical", mais pas de meta noindex ou blocage via robots.txt.
Pour ma part, je préfère largement prendre des précautions en amont.

Ah oui, un truc que je ne pense pas avoir lu dans l'article (ou alors j'ai pas vu/lu) concerne le fameux lien vers la source d'origine. C'est quand même le moyen le plus clean d'éviter un souci quand on reprend un texte déjà présent sur la Toile.



Allo,

J'ai aussi lu qu'il était mieux de mettre rel="canonical" et d'enlever les NO-INDEX, NO-FOLLOW. Toutefois, j'ai une question sur les urls canoniques : Peut-on mettre comme url canonique l'url de la page courrante? Le truc, c'est que nous avons beaucoup de contenu dupliqué qui utilisent tous le même gabarit. Je mettrais l'url canonique dans le gabarit et ça affecterait toutes les variations de la page, mais ça toucherais aussi la page qui est pointée par l'URL canonique. Quelqu'un a essayé ça?

Merci,

Phil

polweb
WRInaute accro
WRInaute accro
 
Messages: 4053
Enregistré le: 18 Oct 2006

Re: Tout savoir sur le filtre Duplicate Content de Google

Message le Mar Juin 22, 2010 21:35

Très bien cet article de wri sur le DC.

Merci.


zeb
WRInaute accro
WRInaute accro
 
Messages: 13572
Enregistré le: 5 Déc 2004

Re: Tout savoir sur le filtre Duplicate Content de Google

Message le Mar Juin 22, 2010 21:56

j'ai eu du mal a arriver au bout c'était long mais instructif. Ce qui au passage viens de mettre a mal le sujet de Hibou57 en fichant une claque a la moyenne (humour bien sur)

Google serait donc dorénavant en mesure de détecter le duplicate content sur de petites parties de pages voire des petites parties de phrases (plutôt que d’effectuer l’analyse sur le contenu global d’une page). Il n’est donc plus possible de créer des pages “patchwork” reprenant un peu de contenu par ici, un peu de contenu par là et mélangeant le tout.


petites parties de pages voire des petites parties de phrases Avec ça et les limites liées a notre érudition, je pense qu'il y a un risque de saturation un jour car le vocabulaire n'est pas sans limite et la toile assez grande pour avoir toutes les combinaisons de mots possible.

Je serais curieux de savoir si une expérience du style "générateur de texte aléatoire" basé sur les, disons 15 000 mots de base de la langue française d'un 'erudi', monté de façon virale (url a accroissement automatique) donnerait un bon retour dans google.

ybet
WRInaute accro
WRInaute accro
 
Messages: 9031
Enregistré le: 22 Nov 2003

Re: Tout savoir sur le filtre Duplicate Content de Google

Message le Jeu Juin 24, 2010 1:27

tes
zeb a écrit:Je serais curieux de savoir si une expérience du style "générateur de texte aléatoire"


Au départ, c'est pas le duplicate content que GG a essayé de casser mais bien leslogiciels de traductions mal fait (l'idée semble de casser les "bricoleurs" au départ, c'est ensuite que le duplivate s'est fait casser).

C'est ensuite nque la similitude a cassé les sites.

Le référencement devient de plus en plus compliqué

carole heinz
WRInaute accro
WRInaute accro
 
Messages: 2885
Enregistré le: 28 Fév 2007

Re: Tout savoir sur le filtre Duplicate Content de Google

Message le Jeu Juin 24, 2010 15:24

zeb a écrit:petites parties de pages voire des petites parties de phrases Avec ça et les limites liées a notre érudition, je pense qu'il y a un risque de saturation un jour car le vocabulaire n'est pas sans limite et la toile assez grande pour avoir toutes les combinaisons de mots possible.


600 mots, oui, pour le quidam moyen peut-être mais le webmaster n'est pas le quidam moyen, il connaît son site, son activité, son marché et est donc en mesure d'employer des mots très peu utilisés par le non-spécialiste (exemple de l'éleveur de chats, du botaniste, du développeur php ou n'importe quoi d'autre en fait!). à cela il faut rajouter les noms de marques, les noms propres etc. qui ne font pas partie des 60.000 entrées du Robert!

statistiquement on pourrait parler de p-liste; le nombre théorique de phrases de 250 mots différentes que l'on peut obtenir avec 600 mots = 600^250 (600 puissance 250 càd 600x600x600x...x600) ce qui est déjà tout à fait gigantesque voire astronomique (bien sur toutes ces phrases ne sont pas syntaxiquement/sémantiquement correctes loin de là)

donc, même avec 600 mots et une seule langue, la toile est très, très loin d'être assez grande pour contenir toutes ces possibilités ;)


sr
WRInaute passionné
WRInaute passionné
 
Messages: 1302
Enregistré le: 15 Mai 2003

Re: Tout savoir sur le filtre Duplicate Content de Google

Message le Jeu Juin 24, 2010 16:23

@ Carole

Très belle démo !
Et j'adhère totalement.

vivreadjerba
WRInaute discret
WRInaute discret
 
Messages: 53
Enregistré le: 12 Juil 2010

Re: Tout savoir sur le filtre Duplicate Content de Google

Message le Mer Juil 14, 2010 0:35

Super article.
J'ai pas lu les 8 pages de la discussion, mais j'ai 2 question :

1. L'article ne parle pas des pages de TAGS
Les pages de tags sur un site genre monsite.com/tags/vacances monsite.com/tags/voyages monsite.com/tags/soleil etc vont lister les memes articles tagés sur plusieurs tags, et vont donc produire des centaines de pages de duplicate content ou near duplicate content

Que se passe til dans ce cas la ? Faut il limiter les TAGS pour limiter le dc ?

2. Pouvez vous confirmer que si on cite le lien de la source sur notre page quand on a fait un gros copié/collé, Google ne prend pas ca comme du dc?

THX


Leonick
WRInaute accro
WRInaute accro
 
Messages: 22674
Enregistré le: 8 Aoû 2004

Re: Tout savoir sur le filtre Duplicate Content de Google

Message le Mer Juil 14, 2010 6:29

vivreadjerba a écrit:Super article.
J'ai pas lu les 8 pages de la discussion
tu aurais du
vivreadjerba a écrit:Faut il limiter les TAGS pour limiter le dc ?
évidemment
vivreadjerba a écrit:Pouvez vous confirmer que si on cite le lien de la source sur notre page quand on a fait un gros copié/collé, Google ne prend pas ca comme du dc?
je ne vois pas pourquoi ça ne serait pas du duplicate. En plus, du copier/coller sans autorisation, c'est du vol et ça, adsense, n'aime pas et tu risques d'être grillé

damiano
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 6
Enregistré le: 27 Avr 2010

Re: Tout savoir sur le filtre Duplicate Content de Google

Message le Ven Aoû 13, 2010 13:46

Bonjour,

J'ai réfléchis de mon côté au Dupplicate Content, et même si je partage dans la plupart des cas les avis de Sylvain, Olivier, Patrick, Denis L.Jee, il est un phénomène que j'ai grand mal à expliquer, et peut-être l'un d'entre vous aura une explication.

Il s'agit des médias publicitaire pour les agences immobilières. Vu qu'en plus de concevoir des sites et de les référencer, on a créer un logiciel immobilier, je me permets de vous expliquer en deux mots le principe de la multidiffusion.

Différents éléments saisis dans le logiciel, comme le prix, la ville, la surface, et une seule et unique description. En moyenne sur nos logicielle, elle est composée de 500 mots. Ensuite à travers le logiciel, on diffuse vers en moyenne 8 médias publicitaires tels que Logic Immo, SeLoger, A vendre à Louer, Topannonces, Le Bon Coin et autres déclinaisons. Un format standart a été défini pour transférer les annonces appelé Polaris, ce qui fait que tous les sites ont a disposition les même informations.

Ma question est donc la suivante: sachant que ces différents sites trustent les premières pages des SERPs, est-ce que cela sous-entends qu'ils seraient considéré comme les créateurs des différents contenus, mais dans ce cas, le site individuel de chaque agence ne devrait-il pas descendre en flèche? Si j'en suis la logique du dupplicate, ils devraient être pénalisés car leurs pages sont composés à 85% de contenus dit "dupliqués". Or il se trouve que ce n'est clairement pas le cas, et que les agences ont le plus grand mal à passer devant sur un nombre de requête conséquent, du fait de la quantité de biens dont-ils dispose sur une ville.

Qu'en pensez-vous?


WebRankInfo
Administrateur du site
Administrateur du site
 
Messages: 22888
Enregistré le: 19 Avr 2002

Re: Tout savoir sur le filtre Duplicate Content de Google

Message le Ven Aoû 13, 2010 15:54

Oui les très gros sites qui récupèrent ces contenus peuvent sortir devant et ne pas subir de pb de contenus dupliqués, en partie grâce à leur bonne notoriété aux yeux de Google.

Pour le reste de la question je n'ai pas compris car d'une part tu dis
"[les sites des agences] devraient être pénalisés [...] Or il se trouve que ce n'est clairement pas le cas"

et aussi :
"les agences ont le plus grand mal à passer devant "

damiano
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 6
Enregistré le: 27 Avr 2010

Re: Tout savoir sur le filtre Duplicate Content de Google

Message le Ven Aoû 13, 2010 17:09

Je comprends la logique, mais du coup n'est-ce pas une remise en cause (même partielle) du DC, sachant qu'à partir d'un certain seuil de trustrank, cela signifierait que le site peut se permettre d'avoir énormément de contenu dupliqué. Ou faut-il y voir une forme de classification des sites, et une certaines tolérances pour les sites "médias" ou comparatifs. Question induite, quelle serait la conséquence pour un site comme WRI de dupliquer du contenu? Est-ce davantage pour se prévenir contre les "prochaines avancées" de google en matière de DC que vous préférez le bannir?

Ce que je voulais dire avec ma seconde question était la chose suivante: les sites des agences immobilière qui reprennent également ces même descriptions mais pour une centaine de bien et avec des fréquentation proche de 4000 visiteurs mensuels, ne pourraient-ils pas être sanctionné au niveau d'une page d'annonce car cette dernière existe également sur ces médias?

Le dernier élément était la conséquence du raisonnement pour vérifier que je ne commets aucune erreur. Un site qui possède 25 biens répartis sur 5 agences immobilière différentes sur un mot clef de type acheter maison Soultz aura plus de contenu et donc plus de chance d'obtenir les premières places sur des moteurs de recherche que la page "similaire" d'une agence qui n'aura que 5 biens de ce type dans cette ville.


Leonick
WRInaute accro
WRInaute accro
 
Messages: 22674
Enregistré le: 8 Aoû 2004

Re: Tout savoir sur le filtre Duplicate Content de Google

Message le Ven Aoû 13, 2010 17:31

dans le cas des sites sur lesquels l'agence met ses annonces, cela ne change rien que le visiteur passe par eux ou non, vu que les agences paient déjà pour se retrouver sur ce site. L'important étant d'avoir de la visibilité, que le visiteur vienne en direct ou non.
Après, le problème qui se pose c'est que si l'internaute ne trouve pas que l'annonce (sur laquelle les serp l'on conduit) correspond à ses souhaits, les gros sites vont le renvoyer sur d'autres annonces y ressemblant et ça peut être celle d'un concurrent.
Ensuite, sur une même requête, comme gg ne permet que 2 pages par site (sauf sitelink), le fait d'avoir son annonce qui apparait sur les gros sites fait qu'il restera moins de place pour la concurrence sur ce gros site.

damiano
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 6
Enregistré le: 27 Avr 2010

Re: Tout savoir sur le filtre Duplicate Content de Google

Message le Ven Aoû 13, 2010 18:14

Entièrement d'accord avec toi, mais compte 200 à 300 € par média et par mois, 500 pour les plus chères,avec grosso modo, 8 gros acteurs sur le marché... ce qui fait que les clients essayent de plus en plus d'attirer un maximum de visiteur en direct.

La conclusion à laquelle on en est arrivé est assez simple, on va nous aussi lancé un support média, mais je m'interrogeais par rapport à ces différentes problématiques pour trouver le meilleur compromis, on a même pensé à demander deux descriptions différentes dans le logiciel, mais il n'est pas certain que cela porte ses fruits.


L.Jee
WRInaute accro
WRInaute accro
 
Messages: 7315
Enregistré le: 11 Déc 2007

Re: Tout savoir sur le filtre Duplicate Content de Google

Message le Ven Aoû 13, 2010 18:37

damiano a écrit:Je comprends la logique, mais du coup n'est-ce pas une remise en cause (même partielle) du DC, sachant qu'à partir d'un certain seuil de trustrank, cela signifierait que le site peut se permettre d'avoir énormément de contenu dupliqué.

Certains sites, on en connait des gros qui ont vu le trou à cause du duplicate content. Donc apparaitrait quand même que cela puisse être dangereux. Pourquoi, comment ? Aucune idée cependant, il y a a creuser ici. A vu de nez je taperai dans la proportion que représente ce contenu sur le site.

damiano
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 6
Enregistré le: 27 Avr 2010

Re: Tout savoir sur le filtre Duplicate Content de Google

Message le Lun Aoû 16, 2010 12:51

Merci pour ta réponse L.Jee, et surtout, merci d'avoir partagé tes stats G.A avec nous. Je vais essayer d'inscrire nos 80 sites sur costaud, je pense en avoir pour 2, 3 mois de travail :-)

cupidonbe
WRInaute discret
WRInaute discret
 
Messages: 132
Enregistré le: 17 Juin 2009

Re: Tout savoir sur le filtre Duplicate Content de Google

Message le Mar Jan 25, 2011 0:25

Concernant le contenu dupliquéje vous invite à lire les derniers développements


Formation recommandée sur ce thème :

Formation REFERENCEMENT naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.

Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.

Lectures recommandées sur ce thème :