Rewriting et éviter le duplicate sans script

Consultez la formation URL Rewriting et sites dynamiques de WebRankInfo / Ranking Metrics


Røi
WRInaute impliqué
WRInaute impliqué
 
Messages: 449
Inscription: Lun Aoû 08, 2005 22:19

Rewriting et éviter le duplicate sans script

Message le Mer Fév 21, 2007 11:08

J'ai une question bien précise et la réponse n'a jamais été donnée dans cette section.

J'ai fait un rewrite d'un vieux répertoire pourri en un tout propre.

Désormais j'ai le répertoire pourri et le propre qui répondent aux requêtes. Donc j'ai un duplicate. Je connais la façon de faire avec un script (vérifier l'URI) mais dans mon cas je n'ai pas accès à un language dynamique ? y a t il un autre moyen ? au niveau d'Apache ?


MirageDemonAsh
WRInaute impliqué
WRInaute impliqué
 
Messages: 418
Inscription: Sam Fév 12, 2005 9:23

Message le Mer Fév 21, 2007 11:32

C'est juste un exemple (à adapter) :

3. Evitez le "Duplicate content" ou "Pages similaires"

Indispensable pour un URL rewriting avancé : Le fichier robots.txt est à prendre en compte très sérieusement pour faire copain-copain avec les bons moteurs de recherche

Exemple, je souhaite interdire l'accès de ces URL aux moteurs parce que :
http://www.example.com/modules/newbb/vi ... ESC-363-29

et inutile car c'est un doublon de la page :
http://www.example.com/modules/newbb/pa ... lat-DESC-0

qui est inutile aussi car c'est un doublon de la page :
http://www.example.com/modules/newbb/co ... -flat-0-29

Pareil pour cette page :
http://www.example.com/modules/newbb/vi ... 3&forum=29

qui est inutile car c'est un doublon de :
http://www.example.com/modules/newbb/viewf-flat-363-29

Etc.... Ça vous fait rire hein ? Ben pas les moteurs. C'est le meilleur moyen de les énerver car trop de pages identiques.

Alors la seule et unique version de page à faire manger aux moteurs c'est : http://www.example.com/modules/newbb/topic-363-forum-29 / Bien sûr, on peut très bien supprimer ces liens doublons, mais il faut penser aux utilisateurs aussi. Certaines de ces URL sont très pratiques, notamment : viewf-flat-ASC-719-58 et viewf-flat-DESC-719-58 qui permettent à l'utilisateur de choisir l'ordre des messages en un clique (Plus récent, moins récent). Il faut alors faire deux types de tri : pour les moteurs et utilisateurs et pour les utilisateurs uniquement. Remarquez que je place des préfixes différents à ces URL pour mieux gérer le tri. Je souhaite interdire les liens de sélection uniquement et non les liens officiels. Le début du nom doit être différent d'où le préfixe viewf pour ne pas exclure topic. Si leur nom commençait de la même façon, le tri serait impossible.

Je vais donc ajouter des interdictions dans mon fichier robots.txt. Les 5 dernières lignes signalent aux moteurs que toutes les pages qui commencent par viewf, contribution, page, viewforum, viewtopic doivent être ignorées !

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /cache/
Disallow: /class/
Disallow: /images/
Disallow: /include/
Disallow: /install/
Disallow: /kernel/
Disallow: /language/
Disallow: /templates_c/
Disallow: /themes/
Disallow: /uploads/
Disallow: /modules/newbb/viewf
Disallow: /modules/newbb/contribution
Disallow: /modules/newbb/viewforum.php
Disallow: /modules/newbb/page
Disallow: /modules/newbb/viewtopic.php

http://www.frxoops.org

Dernière édition par MirageDemonAsh le Mer Fév 21, 2007 11:38, édité 2 fois.


Røi
WRInaute impliqué
WRInaute impliqué
 
Messages: 449
Inscription: Lun Aoû 08, 2005 22:19

Message le Mer Fév 21, 2007 11:34

Bonne idée j'avais pensé au robots.txt aussi je vais le mettre en place, mais aucune autre astuce ?


Formation recommandée sur ce thème :

Formation URL Rewriting et sites dynamiques : apprenez comment mettre en place la réécriture d'URL, comment optimiser vos URL et profiter de vos pages dynamiques pour booster votre référencement. Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.

Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.

Lectures recommandées sur ce thème :

  • Détection de pages dupliquées
    Cet outil vous permet de calculer la similarité entre 2 pages web. L'algorithme utilisé repose sur l'analyse des occurrences des mots (mais pas sur leur positionnement dans les pages). Google utilise cette notion à certains endroits dans son algorithme, mais de façon bien plus évoluée que ce petit outil... Avoir des pages trop similaires peut entraîner des problèmes d'indexation... Cet outil vous permettra peut-être de résoudre certains problèmes de contenus dupliqués.


Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités