éviter duplicate content après url rewriting

Consultez la formation URL Rewriting et sites dynamiques de WebRankInfo / Ranking Metrics


mussara
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 110
Inscription: Jeu Déc 23, 2004 14:56

éviter duplicate content après url rewriting

Message le Ven Juin 08, 2007 12:12

bonjour

j'ai modifié mon htacess pour mettre en place l'url rewriting
sous la forme

Code: Tout sélectionner
RewriteRule ^nouvellepage-(.+)-([0-9]+)\.html$ anciennepage.php?top=id&id=$2&nom=$1 [L]


du coup j'ai essayé de lire pas mal de choses pour éviter le duplicate content avec mes anciennes pages qui sont indexées sur GG mais je ne vois pas trop comment faire pour écrire une syntaxe unique dans le htaccess pour ne plus que ces anciennes pages soient indexées...

comment dois-je m'y prendre?

merci de votre aide


LeMulotNocturne
WRInaute passionné
WRInaute passionné
 
Messages: 636
Inscription: Mer Juin 01, 2005 20:46

Message le Ven Juin 08, 2007 13:15

mettre anciennepage.php en disallow dans ton robots.txt


mussara
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 110
Inscription: Jeu Déc 23, 2004 14:56

Message le Ven Juin 08, 2007 13:23

mais si j'ai des centaines de pages qui avaient cette structure, il faut que j'écrive ces centaines de pages dans le robots.txt???

fra_arf
WRInaute impliqué
WRInaute impliqué
 
Messages: 457
Inscription: Mar Nov 22, 2005 18:53

Message le Ven Juin 08, 2007 16:15

Non toutes les pages contenant ce terme seront supprimer avec le temps.

Mais si tu as un page : anciennepage.php qui doit rester accessible alros tu met anciennepage.php? avec le point d'interrogation et toutes ses pages ne seront plus indexer ni crawlé.

Sinon c'est pas mal de faire des redirections 301 également pour pouvoir garder son indexation...


HawkEye
Modérateur
Modérateur
 
Messages: 14959
Inscription: Lun Fév 23, 2004 12:33

Message le Ven Juin 08, 2007 16:35

LeMulotNocturne a écrit:mettre anciennepage.php en disallow dans ton robots.txt


pas tant qu'elles sont indexées.

Dans les fichiers appelés par des URI réécrits, il faut faire une comparaison entre $_SERVER['REQUEST_URI'] et le contenu généré par la fonction de réécriture (puisque les variables sont connues, on peut le faire sans problème).

De là, si ils sont égaux, on ne fait rien... Sinon, on fait une redirection 301 vers l'URI "de contrôle".

--> les URLs non réécrits ne sont plus indexables, puisqu'ils renvoient une 301.


mussara
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 110
Inscription: Jeu Déc 23, 2004 14:56

Message le Ven Juin 08, 2007 18:44

merci pour de vos réponses

pour prolonger, si toutes mes url dans le site pointent désormais vers les url reecrites, au bout de quelques temps GG va supprimer les anciennes de son index , non?

et pendant ce laps de temps, (est il long?), il y aura du duplicate content, mais est ce si grave?


HawkEye
Modérateur
Modérateur
 
Messages: 14959
Inscription: Lun Fév 23, 2004 12:33

Message le Ven Juin 08, 2007 21:01

Le délai dépendra avant tout de la capacité de ton site à se faire crawler en profondeur.

Cela implique:

- un site bien référencé
- un site au liage interne un tant soit peu étudié

A priori, quelques semaines tout au plus pour un site "classique".

Techniquement parlant, on ne peut pas dire qu'il y'aura du duplicate content "pendant ce temps", si on considère que l'analyse de "duplicate content" commence au moment de la détection d'une page pouvant être similaire, détection impliquant une vérification, donc une nouvelle visite et donc la réception d'un code d'état "301: Moved, Permanently".


Formation recommandée sur ce thème :

Formation URL Rewriting et sites dynamiques : apprenez comment mettre en place la réécriture d'URL, comment optimiser vos URL et profiter de vos pages dynamiques pour booster votre référencement. Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.

Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.

Lectures recommandées sur ce thème :

  • Détection de pages dupliquées
    Cet outil vous permet de calculer la similarité entre 2 pages web. L'algorithme utilisé repose sur l'analyse des occurrences des mots (mais pas sur leur positionnement dans les pages). Google utilise cette notion à certains endroits dans son algorithme, mais de façon bien plus évoluée que ce petit outil... Avoir des pages trop similaires peut entraîner des problèmes d'indexation... Cet outil vous permettra peut-être de résoudre certains problèmes de contenus dupliqués.


Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités