Solution générale contre le duplicate content
7 messages • Page 1 sur 1
Consultez la formation sur les stratégies de liens de WebRankInfo / Ranking Metrics
- nicolaslips
- Nouveau WRInaute
- Messages: 4
- Inscription: Mer Juin 20, 2007 9:59
Solution générale contre le duplicate content
Bonjour à tous,
Je suis novice concernant le référencement et ça ne fait que quelques jours que je suis au courant de l'importance du problème de duplicate content.
Donc je commence à réflechir... et j'imagine une solution.
Avant de me jeter dedans, je suis preneur de tout les avis que vous pourriez avoir sur cette solution.
Voici le cheminement de ma reflexion (un peu théorique) :
Si j'ai bien suivi, 2 URL différentes ne doivent jamais fournir un contenu identique. C'est bien ça ?
La solution qui semble être adoptée par tous est de s'arranger pour que les pages du site exposent des liens construit toujours de la même façon.
Par exemple, on se débrouille pour que le lien vers l'article n°3 soit toujours écrit de la façon suivante :
http://www.monsite.com/article.asp?labe ... ticle&id=3
et jamais :
http://www.monsite.com/article.asp?id=3 ... on-article [ordre des parametres différent]
http://www.monsite.com/article.asp?labe ... ticle&id=3 [libellé pas tout à fait identique]
http://www.monsite.com/article.asp?id=3 [on ne garde que les paramètres réellement utiles pour l'application web]
Cette solution résout-elle le problème du duplicate content ?
A priori, pas complétement. En effet, cette solution ne concerne que les liens exposés par mon site : elle ne résout en rien le problème des liens provenant d'autres sites.
Imaginons les situations suivantes :
Un site "ami" présente un lien vers l'article n°3 de mon site en ayant pris soin d'indiquer la bonne URL [copier depuis la barre d'adresse du navigateur] :
http://www.monsite.com/article.asp?labe ... ticle&id=3
quelques jours plus tard je corrige le libellé de mon article qui devient 'mon-article-prefere' : l'URL correspondante dans mon site a donc changée.
Le site "ami" a toujours l'ancien lien => duplicate content.
Autre cas... le sabotage :
Un site "ennemi" présente un lien vers l'article n°3 de mon site avec un paramètre supplémentaire inutile :
http://www.monsite.com/article.asp?labe ... aram=bidon
=> la encore, duplicate content
Etes-vous d'accord avec ce constat ?
La solution générique que je suggère et d'ajouter au début de mon script article.asp un code qui vérifie la validité de l'URL et effectue éventuellement une redirection permanente (code 301) sur la bonne URL.
Cette vérification s'effectue de la manière suivante :
- récupération du paramètre id et vérifier qu'il correspond à un article existant
- si inexistant : rediriger [via 301] sur la page d'accueil du site
- si existant : retrouvé [via mon code applicatif] le libellé correspondant
- vérifier la validité de l'URL [ordre des paramètres, pas de paramètres supplémentaires, le paramètre label correspond exactement au libellé de l'article]
- si non valide : rediriger [via 301] sur l'URL correctement formée
- si valide : executer le script de la page normalement
Qu'en pensez-vous ? Je n'ai malheureusement trouvé aucun témoignage sur ce type de solution. La plupart des usages de la redirection 301 semble se limiter à la page d'accueil du site (rediriger www.monsite.com et monsite.com sur www.monsite.com/index.html).
Globalement, protéger mon site contre le duplicate content se résume donc à 2 actions :
[1] vérifier dans toutes les pages la construction des liens
[2] en en-tête de chaque page, ajouter un code de validation / redirection
Et là je me demande s'il n'y pas plus rapide !
Imaginons que je ne m'occupe que du point [2]... peu importe comment sont formées les URL dans mes pages : si elle ne sont pas correcte, une redirection 301 fournira l'URL correct au moteur d'indexation (comme au navigateurs clients d'ailleurs).
Pour le moment mes URL sont toutes de la forme http://www.monsite.com/article.asp?id=3.
Je n'ai pas encore mit en place un mécanisme d'URL rewriting.
Le système de construction de mes URL se contente d'y mettre les paramètres utiles à l'application... sans ce soucier du référencement.
Si mon script article.asp est muni d'un code de validation / redirection, il redirigera [via 301] sur l'url : http://www.monsite.com/article.asp?labe ... ticle&id=3.
Donc... d'une pierre deux coups : je résout à la fois l'url rewriting (ajouter des mots-clés dans l'url) et les risques de duplicate content !
Qu'en pensez-vous ?
Là où j'ai un doute est que tous les liens que trouvera Google (ou autre) dans mon site répondront par un 301 :
=> 500 articles = 500 redirections
Comment Google (ou autre) interprète du 301 "en masse" ? Ne risque-t-il pas de considérer cela comme de l'abus ?
Et les navigateurs ? Interprètent-ils correctement le 301 ?
Merci pour toutes infos et avis sur ce sujet.
Nicolas
Je suis novice concernant le référencement et ça ne fait que quelques jours que je suis au courant de l'importance du problème de duplicate content.
Donc je commence à réflechir... et j'imagine une solution.
Avant de me jeter dedans, je suis preneur de tout les avis que vous pourriez avoir sur cette solution.
Voici le cheminement de ma reflexion (un peu théorique) :
Si j'ai bien suivi, 2 URL différentes ne doivent jamais fournir un contenu identique. C'est bien ça ?
La solution qui semble être adoptée par tous est de s'arranger pour que les pages du site exposent des liens construit toujours de la même façon.
Par exemple, on se débrouille pour que le lien vers l'article n°3 soit toujours écrit de la façon suivante :
http://www.monsite.com/article.asp?labe ... ticle&id=3
et jamais :
http://www.monsite.com/article.asp?id=3 ... on-article [ordre des parametres différent]
http://www.monsite.com/article.asp?labe ... ticle&id=3 [libellé pas tout à fait identique]
http://www.monsite.com/article.asp?id=3 [on ne garde que les paramètres réellement utiles pour l'application web]
Cette solution résout-elle le problème du duplicate content ?
A priori, pas complétement. En effet, cette solution ne concerne que les liens exposés par mon site : elle ne résout en rien le problème des liens provenant d'autres sites.
Imaginons les situations suivantes :
Un site "ami" présente un lien vers l'article n°3 de mon site en ayant pris soin d'indiquer la bonne URL [copier depuis la barre d'adresse du navigateur] :
http://www.monsite.com/article.asp?labe ... ticle&id=3
quelques jours plus tard je corrige le libellé de mon article qui devient 'mon-article-prefere' : l'URL correspondante dans mon site a donc changée.
Le site "ami" a toujours l'ancien lien => duplicate content.
Autre cas... le sabotage :
Un site "ennemi" présente un lien vers l'article n°3 de mon site avec un paramètre supplémentaire inutile :
http://www.monsite.com/article.asp?labe ... aram=bidon
=> la encore, duplicate content
Etes-vous d'accord avec ce constat ?
La solution générique que je suggère et d'ajouter au début de mon script article.asp un code qui vérifie la validité de l'URL et effectue éventuellement une redirection permanente (code 301) sur la bonne URL.
Cette vérification s'effectue de la manière suivante :
- récupération du paramètre id et vérifier qu'il correspond à un article existant
- si inexistant : rediriger [via 301] sur la page d'accueil du site
- si existant : retrouvé [via mon code applicatif] le libellé correspondant
- vérifier la validité de l'URL [ordre des paramètres, pas de paramètres supplémentaires, le paramètre label correspond exactement au libellé de l'article]
- si non valide : rediriger [via 301] sur l'URL correctement formée
- si valide : executer le script de la page normalement
Qu'en pensez-vous ? Je n'ai malheureusement trouvé aucun témoignage sur ce type de solution. La plupart des usages de la redirection 301 semble se limiter à la page d'accueil du site (rediriger www.monsite.com et monsite.com sur www.monsite.com/index.html).
Globalement, protéger mon site contre le duplicate content se résume donc à 2 actions :
[1] vérifier dans toutes les pages la construction des liens
[2] en en-tête de chaque page, ajouter un code de validation / redirection
Et là je me demande s'il n'y pas plus rapide !
Imaginons que je ne m'occupe que du point [2]... peu importe comment sont formées les URL dans mes pages : si elle ne sont pas correcte, une redirection 301 fournira l'URL correct au moteur d'indexation (comme au navigateurs clients d'ailleurs).
Pour le moment mes URL sont toutes de la forme http://www.monsite.com/article.asp?id=3.
Je n'ai pas encore mit en place un mécanisme d'URL rewriting.
Le système de construction de mes URL se contente d'y mettre les paramètres utiles à l'application... sans ce soucier du référencement.
Si mon script article.asp est muni d'un code de validation / redirection, il redirigera [via 301] sur l'url : http://www.monsite.com/article.asp?labe ... ticle&id=3.
Donc... d'une pierre deux coups : je résout à la fois l'url rewriting (ajouter des mots-clés dans l'url) et les risques de duplicate content !
Qu'en pensez-vous ?
Là où j'ai un doute est que tous les liens que trouvera Google (ou autre) dans mon site répondront par un 301 :
=> 500 articles = 500 redirections
Comment Google (ou autre) interprète du 301 "en masse" ? Ne risque-t-il pas de considérer cela comme de l'abus ?
Et les navigateurs ? Interprètent-ils correctement le 301 ?
Merci pour toutes infos et avis sur ce sujet.
Nicolas
On parle de "duplicate content" lorsque le contenu est identique à + ou - 70% (ce pourcentage est purement théorique)
Cela pour la réécriture d'urls est importante pour plusierus raisons mais en voici les + significatives:
- Mémorisation pour les internautes
- Suppression des urls exotiques
- Prise en considération par les moteurs de recherches à partir de 2 (+) variables
- Sécurisation de tes données (passage de variables par GET)
- etc...
Par (htaccess) tu vas modifier tes urls exotiques:
-http://www.monsite.com/page.php?var1=bobo;var2=toto;var3=momo
Par
-http://www.monsite.com/page-1-2-3.php
PS: les chiffres 1, 2 et 3 correspondent à tes var1, var2 et var3
Puis tu dois modifier dans ton code source, l'appel à ces urls exotiques pour justement que ces pages ne soient accessibles que par une seule url définie et faire un sitemap pour lister toutes ces urls réécrites!
Cela pour la réécriture d'urls est importante pour plusierus raisons mais en voici les + significatives:
- Mémorisation pour les internautes
- Suppression des urls exotiques
- Prise en considération par les moteurs de recherches à partir de 2 (+) variables
- Sécurisation de tes données (passage de variables par GET)
- etc...
Par (htaccess) tu vas modifier tes urls exotiques:
-http://www.monsite.com/page.php?var1=bobo;var2=toto;var3=momo
Par
-http://www.monsite.com/page-1-2-3.php
PS: les chiffres 1, 2 et 3 correspondent à tes var1, var2 et var3
Puis tu dois modifier dans ton code source, l'appel à ces urls exotiques pour justement que ces pages ne soient accessibles que par une seule url définie et faire un sitemap pour lister toutes ces urls réécrites!
- myPrIsRich
- Nouveau WRInaute
- Messages: 25
- Inscription: Ven Juin 08, 2007 12:23
Vérifier que l'url corresponde au schéma et faire une redirection 301 si besoin, c'est une excellent solution. Efficace et sans soucis.
Vérifier aussi la présence de trucs bizarre dans les query string, et vérifier les extensions.
Combien de webmasters ont des machin.html réecrit... qu'on peut dupliquer en faisant un lien vers machin.php ou vers machin.html?bloup
Vérifier aussi la présence de trucs bizarre dans les query string, et vérifier les extensions.
Combien de webmasters ont des machin.html réecrit... qu'on peut dupliquer en faisant un lien vers machin.php ou vers machin.html?bloup
- nicolaslips
- Nouveau WRInaute
- Messages: 4
- Inscription: Mer Juin 20, 2007 9:59
myPrIsRich a écrit:Vérifier que l'url corresponde au schéma et faire une redirection 301 si besoin, c'est une excellent solution. Efficace et sans soucis.
Tu partages donc mon point de vu.
Mais est-ce aussi une bonne idée pour "simuler" du URL rewriting ? (en gros, je garde tous les liens de mon site dans leur forme actuelle)
Re: Solution générale contre le duplicate content
nicolaslips a écrit:La solution générique que je suggère et d'ajouter au début de mon script article.asp un code qui vérifie la validité de l'URL et effectue éventuellement une redirection permanente (code 301) sur la bonne URL.
C'est ce que je faisait il y a bien longtemps, quand j'etais "puriste" et legerement "parano"
Puis je me suis appercu que les cas que tu desires traiter ne justifiaient pas la charge serveur generee: en ce qui me concerne, il s'agissait d'un site de plusieurs dizaines de miliers de pages...
Consequences ? rien de bien notable
- nicolaslips
- Nouveau WRInaute
- Messages: 4
- Inscription: Mer Juin 20, 2007 9:59
Re: Solution générale contre le duplicate content
itsme a écrit:Puis je me suis appercu que les cas que tu desires traiter ne justifiaient pas la charge serveur generee
Tu parles du trafic serveur (2 requete HTTP : la 1ere renvoyant 301) ou de la charge de traitement ?
Concernant la charge de traitement, je me demande dans quelle mesure elle n'est pas compensée par le fait que je n'ai plus besoin de faire de l'URL rewriting.
Si par exemple chaque page contient un menu de 50 liens vers 50 articles différents, ajouter le libellé de chaque article dans chaque URL me coutera certainement tout aussi cher que d'executer, uniquement sur les pages visitées, un code de validation et redirection.
7 messages • Page 1 sur 1
Formation recommandée sur ce thème :
Formation Netlinking (liens et référencement) : apprenez ce qu'est réellement un bon lien pour le référencement et surtout comment en obtenir. Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.
Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.
Lectures recommandées sur ce thème :
- Comment éviter les contenus dupliqués (avec/sans le www)
- link rel=canonical pour réduire les contenus dupliqués
- Comment lutter contre les mauvaises redirections 302 (temporaires)
- Liste d'erreurs classiques de duplicate content
- Optimiser le référencement d'un blog Dotclear : balises TITLE et META
- Domaine favori - URL canonique
- Articles de R et D sur le PageRank, le SpamRank et le spam...
- Optimiser les URL pour le référencement
- Contrer une redirection 302 intempestive...
- Affichage de la description DMOZ dans MSN Search
- Détection de pages dupliquées
Cet outil vous permet de calculer la similarité entre 2 pages web. L'algorithme utilisé repose sur l'analyse des occurrences des mots (mais pas sur leur positionnement dans les pages). Google utilise cette notion à certains endroits dans son algorithme, mais de façon bien plus évoluée que ce petit outil... Avoir des pages trop similaires peut entraîner des problèmes d'indexation... Cet outil vous permettra peut-être de résoudre certains problèmes de contenus dupliqués.
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités




le forum