Messages: 1

Enregistré le: 18 Mai 2011

Message le Mer Mai 18, 2011 17:14

merci :)
Haut
Messages: 1

Enregistré le: 18 Mai 2011

Message le Mer Mai 18, 2011 17:16

Merci pour ta réponse L.Jee, et surtout, merci d'avoir partagé tes stats G.A avec nous. Je vais essayer d'inscrire nos 80 sites sur costaud, je pense en avoir pour 2, 3 mois de travail :-)
Haut
Messages: 4

Enregistré le: 25 Mar 2010

Message le Dim Sep 25, 2011 16:36

Merci olivier pour ce dossier :)
Haut
Messages: 0

Enregistré le: 19 Jan 2012

Message le Jeu Jan 19, 2012 18:12

Re: Tout savoir sur le filtre Duplicate Content de Google. Pb d'indexation!!!

Bonjour,

message aux experts du SEO ;-)
Du fait de la construction un peu particulière de notre site, nous avions un très grand nombre de pages indexées, beaucoup plus importants que le nombre de pages réelles. Problème : les query

Nous avons modifier le robot txt pour exclure ce paramètre + paramètres webmaster tools.

Depuis nous sommes passés en 1 mois de 45 000 pages à 6 000 (objectif 1500).
Depuis décembre le chiffre stagnait à 6000 et depuis 1 semaine, il est à nouveau en train de remonter : lundi 13 000 et ce jour (jeudi 19 01 2012) : 18 000.

Auriez vous une solution, une réponse? nous ne comprenons plus rien...

Merci d'avance
Haut
Messages: 302

Enregistré le: 10 Déc 2011

Message le Ven Jan 20, 2012 4:34

WebRankInfo a écrit:Le sujet étant de plus en plus au coeur des pb constatés par les WRInautes et tous ceux qui s'intéressent au référencement, j'ai décidé de constituer un dossier entièrement consacré au filtre de Google sur le duplicate content.

Bonne lecture et merci encore aux 5 participants !
J'espère que mon dossier vous plaira et vous sera utile...

Olivier


En relisant l'article, j'ai trouvé une faute de frappe,
je cite:
Eest-ce possible que le filtre de Google sur le contenu dupliqué s'applique aussi à des contenus presque dupliqués internes ?

Dans la partie "Contenus presque dupliqués internes"
Vu que le sujet a été déterrer, j'en profite :)
Haut
Messages: 4

Enregistré le: 10 Jan 2012

Message le Dim Fév 12, 2012 0:50

Bonjour,

J'ai deux question sur les liens crées sur les communiqués de presse.

Déjà est-ce vrai qu'à présent les backlinks et le pagerank d'un site est beaucoup moins important qu'avant pour un bon référencement?

Aussi, On m'a dit qu'il fallait que j'écrive des communiqués de presse en créant des liens vers mon site sur des sites de communiqué de presse dont le pagerank est le plus élevé afin que les liens créés ont plus de valeur.

Or, lorsque j'écris un communiqué sur un site dont le PR de la home page est par exemple de 4, mon article (et donc mes liens) ne se retrouve jamais sur cette home page dont le PR est de 4, mais mon article se retrouve toujours sur une page du site de PR 0.

Est ce que mes liens ont quand même de la valeur dans la mesure ou mon article se situe dans l'une des page d'un site dont la page home est de 4 ou c'est seulement la page dans laquelle est publié mon site qui compte et dans ce cas là mes liens n'ont pas de valeur puisqu'ils se situent sur une page de PR0?

Merci de vos réponse. Alain.
Haut
Messages: 13571

Enregistré le: 5 Déc 2004

Message le Mer Mar 19, 2014 15:15

alain099 a écrit:Déjà est-ce vrai qu'à présent les backlinks et le pagerank d'un site est beaucoup moins important qu'avant pour un bon référencement ?

Qu'avant quoi ? "Avant" il était très important pour les ignorants, maintenant il est négligé même par les idiots.

1/ les backinks sont le nerfs du positionnement et c'est pas prêt de changer (avec le social dans une moindre mesure aujourd'hui).
2/ le Pagerank reste et a toujours été un indicateur flou de la notoriéte d'un site car fort PR = beaucoup de BL vers le site.

Mais faire un bon référencement n'as jamais été une question de PR ou de nombre de lien. il est surtout important d'être référencé chez les "pointures" de ton thème et ceci de façon variée.

alain099 a écrit:lorsque j'écris un communiqué sur un site dont le PR de la home page est par exemple de 4, mon article (et donc mes liens) ne se retrouve jamais sur cette home page dont le PR est de 4, mais mon article se retrouve toujours sur une page du site de PR 0.

la propagation du PR dans un site ne se fait pas en temps réel, le PR de ta page est impossible a connaitre a l'avance.
Si on te conseille un site a fort PR c'est surtout car il y a plus de chance pour que le PR de la page ou se trouve ton lien soit plus élevé par la suite (le PR se répand dans le site via ses liens internes comme un fluide).

alain099 a écrit:Est ce que mes liens ont quand même de la valeur dans la mesure ou mon article se situe dans l'une des page d'un site dont la page home est de 4 ou c'est seulement la page dans laquelle est publié mon site qui compte

Un lien n'a pas que la valeur du PR qu'il transmet. Pour le PR qu'il envoie a ton site c'est la page où il est qui compte, mais avoir un lien même sur une page PR 0 d'un site de référence est plus envieux que le même lien sur une page PR4 d'un site inconnue et pas du tout trusté.

faut pas te focaliser sur le PR... c'est un peut un indicateur de vitesse sur une voiture, c'est bien pour savoir a combien tu roule mais ça ne détermine pas la qualité de ta conduite, c'est qu'un critère. Si maintenant tu veux "piloter" plus que "conduire" un compte tour moteur est plus important (bien qu'il ne face pas tout pour autant).

Si tu veux référencer (au sens ontologique du terme) il faut te faire connaitre sur les sites qui sont complémentaires de ton activité. regarde la toile comme une communauté et débrouille toi pour être présent là ou cette communauté s'exprime et se trouve. Si tu applique ce principe, tu te rendra compte qu'il est plus important pour ton SEO de te concentrer sur l'utilisateur et ses besoins et de fait tu finira par comprendre que certains sites e CP ne sont jamais visités par une internaute normal, idem pour certains annuaires etc ... Tu comprendra donc qui est interessant pour ton référencement.

Et met toi dans la tête pour finir qu'il y a des sites PR 1 ou 2 qui cartonnent sur leur secteur ... Bref le PR ...
Haut
Messages: 1556

Enregistré le: 3 Jan 2009

Message le Mer Mar 19, 2014 16:00

Tu réponds à un post de 2 ans qui a du être remonté par un spam ;)
Haut
Messages: 13571

Enregistré le: 5 Déc 2004

Message le Jeu Mar 20, 2014 11:52

et m*rd* ... c'est pas ma journée :-)
Haut
Messages: 18369

Enregistré le: 5 Juin 2006

Message le Mer Aoû 27, 2014 13:06

La discussion a ENCORE été remontée par un spam :)
Haut
Messages: 214

Enregistré le: 28 Mai 2014

Message le Sam Aoû 30, 2014 11:28

Bonjour
je sais pas si ma question sera prise comme spam car c'est un ancien sujet.
bref : je demande si je fait la traduction d'un texte pour un site multilingue mon centenu sera pris par les moteurs de recherche autant que dupliqué?
merci
Haut
Messages: 18175

Enregistré le: 23 Fév 2004

Message le Lun Sep 01, 2014 11:42

Pourquoi serait-ce "dupliqué", si c'est une traduction ?
Haut
Messages: 22759

Enregistré le: 19 Avr 2002

Message le Lun Sep 01, 2014 21:19

web proxy a écrit:je demande si je fait la traduction d'un texte pour un site multilingue mon centenu sera pris par les moteurs de recherche autant que dupliqué?

non, le contenu traduit n'est pas du contenu dupliqué. A condition bien entendu d'avoir le droit de traduire le texte, et de le faire correctement (pas de traduction automatique)
Haut
Messages: 0

Enregistré le: 12 Nov 2014

Message le Mer Nov 12, 2014 15:49

Merci pour cet article
Haut
Messages: 2501

Enregistré le: 24 Fév 2005

Message le Mer Nov 12, 2014 19:48

As-t-on une idée de la longueur d'une chaine dans un mini texte de 400 caractères qui serait considérée comme DC?
J'ai ce même texte en haut de page, explicatif pour l'internaute, et la seule chose qui le différencie des autres pages suivantes est le numéro de page …

Je viens de prendre parti de le supprimer sur les pages suivantes, mais me reste ce meme texte entrecoupé du nom de la ville ou du département, soit deux chaines de 200 caractères identiques sur des centaines de pages.

Je ne sais pas si Google prenait cela pour du DC avant sur les pages suivantes, et si c'est aussi possible après cette motif d'avoir encore du DC ?

AVANT
Le début du texte (200 carac) => la ville page 1 (50 caract) => la suite du texte (200 carac)
Le début du texte (200 carac) => la ville page 2 (50 caract) => la suite du texte (200 carac)
Le début du texte (200 carac) => le département page 1 (50 caract) => la suite du texte (200 carac)
Le début du texte (200 carac) => le département page 2 (50 caract) => la suite du texte (200 carac)


MAintenant
- Le début du texte (200 carac) => la ville page 1 (50 caract) => la suite du texte (200 carac)
- la ville page 2
- Le début du texte (200 carac) => le département page 1 (50 caract) => la suite du texte (200 carac)
- le département page 2

Si vous avez faits des tests, ils sont les bienvenus ^^
Haut
Messages: 4

Enregistré le: 9 Déc 2014

Message le Mar Déc 09, 2014 22:18

Je me posais la même question. Est-ce que quelqu'un aurait des observations à ce sujet?

Merci
Haut
Messages: 13571

Enregistré le: 5 Déc 2004

Message le Jeu Déc 11, 2014 6:45

50 caractère sur 450 soit 1.25% de changement sur 36 000 commune si c'est pas du DC c'est purement du contenu pauvre en tous cas qui passe pas les filtres de pages similaires.
Haut
Messages: 0

Enregistré le: 25 Jan 2015

Message le Dim Jan 25, 2015 22:15

Merci Olivier,

après un premier coup d'œil, je sens qu'on va en renvoyer du monde sur ce dossier qui semble on ne peut plus clair :)
Haut
Messages: 2501

Enregistré le: 24 Fév 2005

Message le Lun Aoû 21, 2017 11:17

ARF (modifié) ... sujet remonté par un spam ... a déplacer alors ou retirer ... on en parlera de tt façon ^^


Bonjour,

afin d'optimiser nos algorithmes de pertinence sur le moteur de recherche http://www.premsgo.fr , nous avons du faire "du ménage" dans les pages. Je ne sais pas si Google procède de la même façon, mais par logique, nous avons commencé a élaborer une approche en deux temps pour écarter le contenu dupliqué :
préalablement, chaque page est découpé en balises (les DIV, P, TABLE, TR TD, UL, LI ...) :

- chaque contenu entre deux balises est traité en MD5 (algo de cryptage qui réduit le contenu en une chaine de 32 caracteres toujour identique a celui ayant le meme contenu). Un ou des tableaux contient TOUS les contenus, sous forme de chaine MD5, un autre s'incrémente des chaines en double trouvé sur d'autres pages.
- Chaque contenu entre chaque balise est compressé en BLOB (champ binaire), un tableau de blob avec le vrai contenu est ainsi construit en parallèle des contenu en MD5.
- chaque balise est identifié (identifiant ID ou CLASSE, position ...)

Dans un premier temp, les chaines MD5 (strictement identique) en double son eliminé des pages.
Ensuite, un algo spécial tente de détecter dans les pages des contenus très proche. Si il y a trop de répétition, ce sont alors les blocs en BLOB qui sont comparés pour détecter des contenus très proches qui nous ont échapé.
C'est souvent le cas pour des menus répétitifs, mais dont un signe d'une page a une autre change ce qui ne donne pas le même code MD5.

Ces contenus entre balises identiques a 99% (ou plus) sont alors éliminé de toutes les pages.

Il ne reste que du texte "brut", parfois répétitif, mais qui reflète plus le contenu "intéressant" de la page, surtout pour analyse sémantique. Ce n'est pas parfait mais deja pas mal ...

Pour du DC a très grande échelle, il faut d'énormes ressources. Et puis a l'usage, on simplifie peu a peu. Nos 3 pauvres mac souffrent carrément ... on fait avec! Les disques SSD de 4To se remplissent vite, donc pour le DC inter-site, nous ne pouvons que nous limiter a l'exacte similitude des contenus dans des balises (comparaison des MD5).

Google, avec ses 2 millions de serveurs peut probablement aller plus loin, mais il y a des limites quand même.
Modifié en dernier par longo600 le Lun Aoû 21, 2017 11:32, modifié 1 fois.
Haut
Messages: 2501

Enregistré le: 24 Fév 2005

Message le Lun Aoû 21, 2017 11:23

PS: le moteur n'est pas accessible en ce moment est reste toujours dans sa première version de test basique de 2015 pour le public. Les modifs seront annoncées et mises en ligne courant Septembre / Octobre (de cette année , je précise ^^).
Haut
Messages: 2501

Enregistré le: 24 Fév 2005

Message le Jeu Nov 02, 2017 19:38

Re: Tout savoir sur le filtre Duplicate Content de Google. Pb d'indexation!!!

annec935 a écrit:Bonjour,
... Depuis décembre le chiffre stagnait à 6000 et depuis 1 semaine, il est à nouveau en train de remonter : lundi 13 000 et ce jour (jeudi 19 01 2012) : 18 000.

Auriez vous une solution, une réponse? nous ne comprenons plus rien...

Merci d'avance


Bonjour,
Il y a de nombreux data center ou les données sont stockées, il est tres fréquent que les données fassent le yoyo dans les SERP (résultats), mais c'est peu probable dans webmastertools. Toutefois, Google a tendance a considérer les pages innaccessibles comme temporairement indisponible seulement, alors selon les algorithmes qui se succèdent, cela peut provoquer des retour en arrière temporaire. Il faut attendre 6 mois sur des gros sites pour que ca commence a se stabiliser, en général.
Haut