Chasse au duplicate content : robots.txt + suppression de page ?

Consultez la formation au REFERENCEMENT naturel Google de WebRankInfo / Ranking Metrics

Le-Gritche
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 5
Inscription: 1 Juin 2003

Chasse au duplicate content : robots.txt + suppression de page ?

Message le Jeu Mar 04, 2010 19:19

Bonjour,

Sur un site, j'avais de nombreux duplicate que j'ai progressivement éliminés en modifiant mon robots.txt.
Quelques mois plus tard, toutes ces pages concernées apparaissent toujours dans l'index de Google lorsque je choisis d'inclure les pages ignorées dans les résultats de recherche.

Ils apparaissent dans les SERP sans snippet, sans titre, sans description, donc l'effet de mon robots.txt est correct.

Par contre, j'ai peur que ces pages soient toujours prises en compte dans le cadre de la détection du duplicate content, puisqu'elles sont toujours dans l'index. Votre avis ?

renan_22
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 13
Inscription: 18 Fév 2008

Re: Chasse au duplicate content : robots.txt + suppression de page ?

Message le Ven Mar 05, 2010 10:06

Bonjour,

En fait, il ne faut pas trop te soucier de duplicate content... Hormis si un site pompe ton contenu...

Quel type de duplicate content parle-tu?

S'il s'agit d'url différentes avec strictement le même contenu, une balise canonical devrait faire l'affaire...

http://www.mattcutts.com/blog/duplicate-content-question/
http://www.webrankinfo.com/dossiers/techniques/url-canonique

Le-Gritche
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 5
Inscription: 1 Juin 2003

Re: Chasse au duplicate content : robots.txt + suppression de page ?

Message le Dim Mar 07, 2010 11:18

Oui il s'agit de plusieurs URL pointant sur la même page.

En clair, un veux PhpBB dont les URL des billets ont été indexées avant que je ne m'en rende compte.
J'ai pas mal de pages de mon sitemap qui ne sont pas indexées, je pense que c'est lié à ça. Je veux donc maintenant faire du propre et n'indexer que les pages des sujets.

Ma première réaction a été celle du robots.txt, mais je suis surpris que les pages bloquées apparaissent toujours en faisant une recherche avec la commande site:. Elles apparaissent "brutes" (URL et lien uniquement), mais apparaissent quand même...

Je viens d'appliquer le canonical aux pages concernées, on va voir ce que ça donne.
Merci.


Si vous avez aimé cette discussion, partagez-la sur vos réseaux sociaux préférés :

Formation recommandée sur ce thème :

Formation REFERENCEMENT naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.

Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.

Lectures recommandées sur ce thème :

  • Similarité et duplicate content
    Cet outil vous permet de calculer la similarité entre 2 pages web. L'algorithme utilisé repose sur l'analyse des occurrences des mots (mais pas sur leur positionnement dans les pages). Google utilise cette notion à certains endroits dans son algorithme, mais de façon bien plus évoluée que ce petit outil... Avoir des pages trop similaires peut entraîner des problèmes d'indexation... Cet outil vous permettra peut-être de résoudre certains problèmes de contenus dupliqués.


Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités