Pages grisées - taux de duplicate content acceptable
15 messages • Page 1 sur 1
Consultez la formation au référencement naturel Google de WebRankInfo / Ranking Metrics
Pages grisées - taux de duplicate content acceptable
Bonjour,
je viens d'analyser un très petit site, un annuaire ultra thématique basé sur la plateforme wordpress.
Stats du blog :
Age : mai 2008
Pr 1, 4 BL
19 sites inscrits
1958 mots totaux
9 pages réelles indexables, 8 indexées
35 Vu/jour depuis google
Je réutilise un partie du contenu des pages en home et en sidebarre, ce qui génère du duplicate « on site », 245 mots sont communs à toutes les pages.
La page non indexée offre 0% de contenu propre,
Une autre avec 39 mots originaux : une suite de 13, une autre de 26 soit 39 mots sur 361 ou 10.80% est pr blanc, indexée, se classe 2 émé sur 417000, adword sur page de résultat, requète 2 mots « fabricant+ thématique »
je viens d'analyser un très petit site, un annuaire ultra thématique basé sur la plateforme wordpress.
Stats du blog :
Age : mai 2008
Pr 1, 4 BL
19 sites inscrits
1958 mots totaux
9 pages réelles indexables, 8 indexées
35 Vu/jour depuis google
Je réutilise un partie du contenu des pages en home et en sidebarre, ce qui génère du duplicate « on site », 245 mots sont communs à toutes les pages.
La page non indexée offre 0% de contenu propre,
Une autre avec 39 mots originaux : une suite de 13, une autre de 26 soit 39 mots sur 361 ou 10.80% est pr blanc, indexée, se classe 2 émé sur 417000, adword sur page de résultat, requète 2 mots « fabricant+ thématique »
-

Bellegarde-webb - WRInaute accro

- Messages: 1147
- Inscription: Mer Juil 12, 2006 15:13
Interessante cette analyse. Reco. 
Ce serait bien comme post sur Tests et études de cas vu que c'est intéressant comme étude et bien mieux que beaucoup d'autres posts de cette section. 
J'ai rien compris... Que cherches tu à prouver ?? Qu'avec 10% de duplicate sur ta page Google ne voit rien ?? Et que donc tu arrives à te positionner sur une requête ou il y a du adword ?
Si ta requête t'amène 1 visiteur par mois je ne vois pas l'intérêt...
Si ta requête t'amène 1 visiteur par mois je ne vois pas l'intérêt...
Après avoir relus plusieurs fois j'ai un peu mieux compris ton étude :
Tu as un petit site non référencé (4 Bl) sur une niche et donc tu te positionnes correctement dans Google parce que tu réutilises du contenu de tes pages sur ta "home"
C'est ça ?
Mais je n'en vois toujours pas l'intérêt ?
Tu as un petit site non référencé (4 Bl) sur une niche et donc tu te positionnes correctement dans Google parce que tu réutilises du contenu de tes pages sur ta "home"
C'est ça ?
Mais je n'en vois toujours pas l'intérêt ?
Re,
je ne cherches à rien prouver du tout, j'explique simplement que dans au moins un cas, 10.80% de contenu unique sur une page interne (soit 89.20% de contenu dupliqué) suffit pour éviter la pénalité de la page grisée.
Je précise le maigre Pr et le peu de BL externes parce qu' on peux également faire dégriser une page en augmentant significativement son linking. Ce qui n'est donc pas le cas du site pris pour exemple.
je ne cherches à rien prouver du tout, j'explique simplement que dans au moins un cas, 10.80% de contenu unique sur une page interne (soit 89.20% de contenu dupliqué) suffit pour éviter la pénalité de la page grisée.
Je précise le maigre Pr et le peu de BL externes parce qu' on peux également faire dégriser une page en augmentant significativement son linking. Ce qui n'est donc pas le cas du site pris pour exemple.
-

carole heinz - WRInaute accro

- Messages: 2453
- Inscription: Mer Fév 28, 2007 1:44
même si je n'ai pas tout compris, c'est intéressant, mais je ne pense pas que Google estime le duplicate en termes de pourcentage global, mais plutôt sur des parties / sous-parties de pages.
la structure commune aux pages (menu/footer etc) n'est pas à prendre en compte dans le calcul. de + il ne faut pas confondre et mélanger le duplicate "interne" (qui n'est pas grave du tout) et le vrai duplicate, càd le fait de reprendre un contenu hébergé sur un autre site.
il reste donc la partie "centrale" d'une page qui elle-même peut parfaitement être scindée en plusieurs sous-parties.
donc 2% de vrai duplicate sur une page complète peuvent très bien correspondre à 100% de duplicate au niveau d'une sous-partie de page (par ex. dans un <p></p> ) => pas bon
la structure commune aux pages (menu/footer etc) n'est pas à prendre en compte dans le calcul. de + il ne faut pas confondre et mélanger le duplicate "interne" (qui n'est pas grave du tout) et le vrai duplicate, càd le fait de reprendre un contenu hébergé sur un autre site.
il reste donc la partie "centrale" d'une page qui elle-même peut parfaitement être scindée en plusieurs sous-parties.
donc 2% de vrai duplicate sur une page complète peuvent très bien correspondre à 100% de duplicate au niveau d'une sous-partie de page (par ex. dans un <p></p> ) => pas bon
bonjour Carole,
effectivement si l'on considère que google ne tient pas compte des bloc communs, on peux retrancher les 245 mots communs et conserver un bloc de contenu propre à la page de 116 mots.
Sur ces 116 mots, 39 ne sont utilisés nulle part d'autre sur le site et représentent donc 33% du contenu qui intéresserait le bot.
Concernant le duplicate interne, je ne serait pas aussi catégorique en affirmant que ce n'est rien du tout. La page grisée est la seule dont l'intégralité du contenu est reprise en home, je l'ai vérifié sur d'autres sites également, le duplicate interne est source de tapage sur les doigts.
effectivement si l'on considère que google ne tient pas compte des bloc communs, on peux retrancher les 245 mots communs et conserver un bloc de contenu propre à la page de 116 mots.
Sur ces 116 mots, 39 ne sont utilisés nulle part d'autre sur le site et représentent donc 33% du contenu qui intéresserait le bot.
Concernant le duplicate interne, je ne serait pas aussi catégorique en affirmant que ce n'est rien du tout. La page grisée est la seule dont l'intégralité du contenu est reprise en home, je l'ai vérifié sur d'autres sites également, le duplicate interne est source de tapage sur les doigts.
je ne suis pas trop les tests, mais il a été "officiellement" prouvé que le contenu fixe de navigation n'est pas compté ?
33% C'est 1/3 du contenu centrale ... Ce qui rendrait approximativement tous les systèmes "titre + intro" pour amener sur un article qui reprend "titre + intro + contenu" en page grisée. Ce qui me parait complètement idiot de la part de Google si tel était le cas.
33% C'est 1/3 du contenu centrale ... Ce qui rendrait approximativement tous les systèmes "titre + intro" pour amener sur un article qui reprend "titre + intro + contenu" en page grisée. Ce qui me parait complètement idiot de la part de Google si tel était le cas.
Le duplicate est justement créé par un système qui reprend "titre plus texte intro" en home, dans ce cas précis; les 33% de contenu propre à la page ou 10.80% du contenu total, lui permettent d'éviter la sanction.
Je prends ce site précis en exemple parce qu'il cumule les handicaps : jeune, très faible linking, peu de contenu... Un site comme cela dès qu'il y a l'ombre d'une pénalité possible, il se la mange.
Je prends ce site précis en exemple parce qu'il cumule les handicaps : jeune, très faible linking, peu de contenu... Un site comme cela dès qu'il y a l'ombre d'une pénalité possible, il se la mange.
tonguide a écrit:je ne suis pas trop les tests, mais il a été "officiellement" prouvé que le contenu fixe de navigation n'est pas compté ?
Je serais curieus de savoir d'où vient le terme "officiel" ... Que Google différencie les deux parties, là d'accord. Pour le reste, fait des pages vides (juste 3 - 4 mots quand même en ne reprenant que la partie navigation et c'est direct à la poubelle.
blogger a écrit:.
Je prends ce site précis en exemple parce qu'il cumule les handicaps : jeune, très faible linking, peu de contenu... Un site comme cela dès qu'il y a l'ombre d'une pénalité possible, il se la mange.
Ou plutôt cumule un paquet de partie "amatériste" que Google à l'air de privilégier depuis quelques mois, en plus d'être super spécialisé, c'est aussi une direction. En plus, je pense que les sanctions de duplicate sont plus entre sites que dans des pages d'un même site.
Mais c'est une étude se basant sur un petit site ultra thématique. En me basant sur un post de Carole concernant le duplicate content dans les annuaires (pages grisées), j'ai fait quelques tests sur mon propre annuaire. C'est beaucoup plus complexe.
D'abord, en prenant une partie de la description d'un site dans les recherches Google avec ", on retrouve souvent quelques annuaires les mêmes dans les résultats: dogfree, compare le net, WRI, ... et d'autres qu'on attendrait moins souvent (indexweb et yagoort qui oblige plus de texte par exemple mais d'autres aussi) . C'est quand on demande pages ignorées que les autres arrivent et comme par hasard, la majorité des pages sans résultats complémentaires affichées ont souvent du PR, les autres .... pas. Par contre, le compte Google a du fonctionné puisque après 3 - 400 sites, mon propre annuaire commencait à apparaître (alors qu'il est complètement dans les choix pour cette partie selon mes stats) - c'est une petite parenthèse comme quoi la barre de navigation avec PR et / ou compte google démarré est utilisée par GG pour donner les résultats selon l'internaute ...
Me suis plutôt intéressé à dogfree en comparant avec darut.eu (le mien). Pour Dogffree, petit texte et "grosse navigation" avec une page par site . Il -n'a pas l'air d'être sanctionné ... Ca donnerait l'idée que la navigation n'est pas prise en compte .... (même si j'ai des doutes), mais pas de duplicate content dans son cas possible sur le contenu.
Pense pas que c'est une question réellement de pourcentage, ca dépend plus de qui est en face. dans mes recherches duplicate, c'était souvent les mêmes qu'on retrouvait , doit y avoir une sorte de niveau de confiance qui fait passer quelques sites devant, les autres étant grisés. (au passage, félicitation au roi de la soumission automatique qui a réussit 2090 résultats identiques ... si son site n'a pas sauté, c'est franchement du bol)
En plus, une petite constatation de ces derniers mois, GG privilégie les petits annuaires ciblés, j'en ai déjà parlé par MP avec Blogger, sur gite + une ville précise, GG a mis en avant deux annuaires "locaux" qui reprennent les gîte de la ville (au détriment d'un gîte fait par un référenceur généralement coriace que je connaît, pourtant site en place depuis des années).
Il y a une part de % de duplicate mais aussi probablement un ou polusieurs facteur qui fait que GG déclasse un paquet de pages mais en garde quelques unes et ca ressemble plus à quelques sites qu'à des pages spécifiques, genre trusrank.
15 messages • Page 1 sur 1
Formation recommandée sur ce thème :
Formation Référencement naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.
Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.
Lectures recommandées sur ce thème :
- Comment éviter les contenus dupliqués (avec/sans le www)
- Calcul du ratio de liens profonds vers un site web
- Annonces illustrées Google Adsense
- link rel=canonical pour réduire les contenus dupliqués
- Liens sponsorisés : XiTi mesure Google Content
- Optimiser le référencement d'un blog Dotclear : balises TITLE et META
- Articles de R et D sur le PageRank, le SpamRank et le spam...
- Liste d'erreurs classiques de duplicate content
- Améliorer le taux de conversion : la clé de la réussite !
- Optimiser les URL pour le référencement
- Fichier robot.txt, duplicate content et taux d'indexation
- Taux de clics acceptable?
- Pages suivantes = Duplicate content ?
- duplicate content et pages avec paramétres ID
- Voir les pages en duplicate content
- Indexation des sections de pages et duplicate content
- duplicate content ? avec plusieurs pages Index
- Pages produits + version pdf = duplicate content ?
- voir uniquement les pages en duplicate content
- comment evité un duplicate content (Redirection de pages)
- Eviter un duplicate content avec des pages en liste
- Algorithme de similarité entre deux pages(Duplicate Content)
- Comment supprimer des pages duplicate content sur google?
- Duplicate content avec les pages de mon site 301 ou robots ?
Consultez la description détaillée des produits ou services de Google suivants : Google Website Optimizer
- Détection de pages similaires
Cet outil vous permet de calculer la similarité entre 2 pages web. L'algorithme utilisé repose sur l'analyse des occurrences des mots (mais pas sur leur positionnement dans les pages). Google utilise cette notion à certains endroits dans son algorithme, mais de façon bien plus évoluée que ce petit outil... Avoir des pages trop similaires peut entraîner des problèmes d'indexation... Cet outil vous permettra peut-être de résoudre certains problèmes de contenus dupliqués. - Calcul du taux de liens vers des pages internes
Cet outil vous permet de calculer le taux de liens profonds vers un site web. Un lien profond est un lien qui ne pointe pas vers la page d'accueil mais au contraire vers une page interne du site. Les sites dont l'essentiel du référencement vient de leurs inscriptions dans des annuaires ont un taux de liens profonds faible ; à l'inverse, les sites de référence ont souvent un taux de liens profonds plus important, signe que leur contenu a suscité de nombreux liens spontanés.
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités







le forum