Url rewriting et duplicate content : arbitrage des ressources

maxime! · 22 Juin 2010

Bonjour,

Je suis en train de bosser sur la nouvelle ré-écriture des urls d'un de mes sites, et je suis confronté à un problème que j'ai remarqué et qui est présent sur vraiment beaucoup de sites web.

Un exemple valant mieux qu'un long discours, voici le site démo de prestashop :
www.prestashop.com/demo/3-accessoires-ipod

L'url rewriting utilise le premier chiffre, et donc ceci renvoi la même page :
www.prestashop.com/demo/3-accessoires-ipppppppppppppppod

Bien sûr c'est un cas de duplicate content et bien sûr il existe un moyen de contrer cela en vérifiant que l'url saisie soit la bonne.
Cependant, cette vérification a un coût (selon la page affichée 1 ou 2 requêtes sql avec jointure), et un impact sur la vitesse du site web, celui-ci étant chargé, cela un impact significatif aux heures de pointe.
Il y a donc un impact négatif, pas insurmontable bien sûr, mais il existe.

J'en appelle donc à WRI pour mieux connaitre les impacts négatifs du duplicate content évoqué.
Clairement, ces urls à erreur n'apparaitront que si quelqu'un fait un lien vers le site en introduisant l'erreur. Il faudrait taper manuellement l'url au lieu d'un copié-collé. A mon sens, le cas sera donc suffisamment rare pour ne pas justifier les requêtes sql supplémentaires car le risque de problème causé par le duplicate content sera quasiment nul.

Qu'en pensez vous ?
Merci de vos avis.

silef · 22 Juin 2010

J'ai été confronté a ce soucis et il existe une solution intermédiaire qui consiste a ne faire cette vérification avec redirection que pour les bots car après tout ce sont eux qui indexent et doivent avoir la véritable url et pas une douzaine de versions possibles pour la même page.

HawkEye · 22 Juin 2010

maxime! a dit:
Cependant, cette vérification a un coût (selon la page affichée 1 ou 2 requêtes sql avec jointure), et un impact sur la vitesse du site web, celui-ci étant chargé, cela un impact significatif aux heures de pointe.

Crois-tu vraiment qu'une requête sur une clé primaire au format INT() soit si lourde ?
Qui plus est: la requête est la plupart du temps déjà faite... tu dois de toutes façons aller chercher le nom du produit pour l'afficher sur la page... donc un petit passage par ta fonction d'assainissement, une comparaison avec l'URI, et une redirection vers l'URI de contrôle... et le tour est joué

Je fais cette vérification sur mes sites, qu'il s'agisse d'URLs avec une clé numérique, ou de clés sous forme de "slugs": je n'ai pas constaté de ralentissement

maxime! · 1 Juillet 2010

Merci pour vos avis et commentaires