Duplicate Content et Robots.txt

Règles du forum
Attention ce forum est destiné avant tout à ceux qui découvrent le référencement. Les membres qui auront l'amabilité de répondre à leurs questions sont priés de rester courtois, polis, indulgents, patients et pédagogues... Merci d'avance !

Par ailleurs, inutile d'utiliser ce forum uniquement pour obtenir des liens vers vos sites, les liens sont désactivés pour le référencement (nofollow).

Consultez la formation au REFERENCEMENT naturel Google de WebRankInfo / Ranking Metrics


slimooo
WRInaute discret
WRInaute discret
 
Messages: 129
Inscription: 3 Déc 2005

Duplicate Content et Robots.txt

Message le Lun Mar 08, 2010 21:42

Bonjour,

je me pose la question depuis quelques temps déjà...

Exemple: sur sa page1 le site 1 plagie le site 2. Mais le site1 exclue la page1 de l'indexation grâce au Robots.txt

Le site1 sera-t-il sanctionné pour duplicate content par google?


jeanluc
WRInaute accro
WRInaute accro
 
Messages: 3062
Inscription: 3 Mai 2004

Re: Duplicate Content et Robots.txt

Message le Lun Mar 08, 2010 22:53

Si une page est exclue par robots.txt, Googlebot ne lira pas la page, il ne saura donc pas qu'elle est une copie d'une autre page et le duplicate content ne sera pas détecté.

Jean-Luc

fredfan
WRInaute accro
WRInaute accro
 
Messages: 3128
Inscription: 2 Juil 2008

Re: Duplicate Content et Robots.txt

Message le Mar Mar 09, 2010 12:00

Elle ne sera pas indexée non plus. Quel intérêt alors ?
Ca reste du plagiat juridiquement quand même.

daerf59
WRInaute discret
WRInaute discret
 
Messages: 69
Inscription: 26 Fév 2010

Re: Duplicate Content et Robots.txt

Message le Mar Mar 09, 2010 21:17

Bonjour,

Je partage un autre point de vue.

Une page exclue par le fichier robots.txt ne veut pas dire "ignoré" par Google. J'ai déjà vu des pages exclue et indexées quand meme par Google.
Le fichier robots.txt est plus une régle de conduite qu'une règle absolue.
Donc oui il y a plagiat c'est sur.
Maintenant il peut y avoir DC si la page est indéxée par Google ( a condition que le contenu est vraiment identique)


jeanluc
WRInaute accro
WRInaute accro
 
Messages: 3062
Inscription: 3 Mai 2004

Re: Duplicate Content et Robots.txt

Message le Mar Mar 09, 2010 21:33

daerf59 a écrit:Maintenant il peut y avoir DC si la page est indéxée par Google ( a condition que le contenu est vraiment identique)
Non.

Si elle est exclue par robots.txt, d'accord avec toi que son URL peut être indexée, mais sans son contenu qui n'aura pas été visité par Google, donc il n'y aura pas de DC.

DC ou pas, une copie non autorisée est une copie non autorisée. :mrgreen:

Jean-Luc


5_legs
WRInaute passionné
WRInaute passionné
 
Messages: 2072
Inscription: 30 Avr 2006

Re: Duplicate Content et Robots.txt

Message le Mar Mar 09, 2010 21:43

jeanluc a écrit:
daerf59 a écrit:Maintenant il peut y avoir DC si la page est indéxée par Google ( a condition que le contenu est vraiment identique)
Non.

Si elle est exclue par robots.txt, d'accord avec toi que son URL peut être indexée, mais sans son contenu qui n'aura pas été visité par Google, donc il n'y aura pas de DC.

DC ou pas, une copie non autorisée est une copie non autorisée. :mrgreen:

Jean-Luc


C'est une remarque intéressante car on pense souvent qu'il suffit de mentionner une page dans un robots.txt pour qu'elle ne soit indexée et c'est peine perdue.

Le contenu ne sera pas indexé comme tu le souligne mais cela n'empêche pas l'url de l'être et ce, même si "en +" on a pris soin d'intégrer une balise meta robots none.

J'ai un cas sous les yeux avec près de 2000 pages (urls) indexées (sans contenu) alors qu'elles sont mentionnées dans le robots.txt et dans les meta.
Quelque part, à mes yeux ce n'est pas logique...

daerf59
WRInaute discret
WRInaute discret
 
Messages: 69
Inscription: 26 Fév 2010

Re: Duplicate Content et Robots.txt

Message le Mar Mar 09, 2010 21:45

Donc on est d'accord jeanluc ;)
SI la page indéxée oui il peut y avoir DC. Si Google ne l'a pas indexée aucun risque.
Maintenant je te rejoins aussi, je vois pas trop l'intérêt d'une telle pratique

daerf59
WRInaute discret
WRInaute discret
 
Messages: 69
Inscription: 26 Fév 2010

Re: Duplicate Content et Robots.txt

Message le Mar Mar 09, 2010 21:48

Effectivement 5_legs.

Le meilleur de voir un dossier ou une page ignoré par Google et de protéger le dossier ou la page par une authentification.


jeanluc
WRInaute accro
WRInaute accro
 
Messages: 3062
Inscription: 3 Mai 2004

Re: Duplicate Content et Robots.txt

Message le Mar Mar 09, 2010 21:58

5_legs a écrit:Le contenu ne sera pas indexé comme tu le souligne mais cela n'empêche pas l'url de l'être et ce, même si "en +" on a pris soin d'intégrer une balise meta robots none.
Une balise META placée dans une page interdite par robots.txt ne sera pas lue, puisque la lecture de la page est interdite. Donc, dans ce cas, elle ne sert à rien.

Si on veut utiliser la META robots, la page ne doit pas être interdite par robots.txt. Et ainsi, ça marche très bien.

Parfois le plus simple est d'utiliser l'outil de suppression des URL des GWT.

Jean-Luc

P.S. ne dites pas que Google ne respecte pas robots.txt ou donnez un exemple concret vérifiable :lol:


5_legs
WRInaute passionné
WRInaute passionné
 
Messages: 2072
Inscription: 30 Avr 2006

Re: Duplicate Content et Robots.txt

Message le Mar Mar 09, 2010 22:40

jeanluc a écrit:
P.S. ne dites pas que Google ne respecte pas robots.txt ou donnez un exemple concret vérifiable :lol:


Tu vas en recevoir un par MP :mrgreen:


Si vous avez aimé cette discussion, partagez-la sur vos réseaux sociaux préférés :

Formation recommandée sur ce thème :

Formation REFERENCEMENT naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.

Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.

Lectures recommandées sur ce thème :

  • Détection de pages dupliquées
    Cet outil vous permet de calculer la similarité entre 2 pages web. L'algorithme utilisé repose sur l'analyse des occurrences des mots (mais pas sur leur positionnement dans les pages). Google utilise cette notion à certains endroits dans son algorithme, mais de façon bien plus évoluée que ce petit outil... Avoir des pages trop similaires peut entraîner des problèmes d'indexation... Cet outil vous permettra peut-être de résoudre certains problèmes de contenus dupliqués.


Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 1 invité