Eviter le Duplicate Content avec "%20" dans l'url
6 messages
• Page 1 sur 1
Consultez la formation au REFERENCEMENT naturel Google de WebRankInfo / Ranking Metrics
-

SuperPJ - WRInaute impliqué

- Messages: 513
- Inscription: 15 Jan 2005
Eviter le Duplicate Content avec "%20" dans l'url
Salut à tous !
J'ai eu la mauvaise surprise tout à l'heure de constater que Google indexe les URL qui commencent par "%20" ! Le site http://www.bacplusdeux.com/spip/article.php3?id_article=237 a mis un lien vers http://%20%20%20%20%20%20%20%20%20%20annuaire.audiencestv.com et du coup je me retrouve avec ça :
URL INCORRECTE MAIS MALGRE TOUT INDEXEE PAR GOOGLE
Je cherche une solution avant de me retrouver avec du duplicate content comme c'est le cas pour ce site :
urls avec %20 => urls sans %20
J'ai essayé la redirection 301 via .htaccess mais ça n'a pas l'air de marcher car il ignore le signe % dans le domaine. Ainsi un :
n'aura aucun effet
D'ailleurs si je vérifie le contenu de la variable HTTP_HOST via PHP, il me dit que c'est égal à "annuaire.audiencestv.com" et non "%20%20%20%20%20%20%20%20%20%20annuaire.audiencestv.com". Comment résoudre le problème si les "%20" ne sont même pas dans les variables d'environnement
Si vous avez une solution ce serait vraiment cool
j'ai pas trop compris pourquoi Google indexe de telles urls. Ce qui est inquiétant c'est que n'importe qui - volontairement ou non - peut apparemment générer du Duplicate Content en faisant un lien vers http://%20www.xxx.com ... et si tous les liens de ce site sont relatifs et non absolus .........
PJ.
PS : Je m'excuse si ce problème a déjà été traité mais impossible de faire une recherche dans les anciens messages du forum car le caractère "%" est ignoré par le moteur de recherche WRI.
J'ai eu la mauvaise surprise tout à l'heure de constater que Google indexe les URL qui commencent par "%20" ! Le site http://www.bacplusdeux.com/spip/article.php3?id_article=237 a mis un lien vers http://%20%20%20%20%20%20%20%20%20%20annuaire.audiencestv.com et du coup je me retrouve avec ça :
URL INCORRECTE MAIS MALGRE TOUT INDEXEE PAR GOOGLE
Je cherche une solution avant de me retrouver avec du duplicate content comme c'est le cas pour ce site :
urls avec %20 => urls sans %20
J'ai essayé la redirection 301 via .htaccess mais ça n'a pas l'air de marcher car il ignore le signe % dans le domaine. Ainsi un :
- Code: Tout sélectionner
RewriteCond %{HTTP_HOST} ^%20
RewriteRule ^(.*) http://annuaire.audiencestv.com/$1 [R=301,L]
n'aura aucun effet
D'ailleurs si je vérifie le contenu de la variable HTTP_HOST via PHP, il me dit que c'est égal à "annuaire.audiencestv.com" et non "%20%20%20%20%20%20%20%20%20%20annuaire.audiencestv.com". Comment résoudre le problème si les "%20" ne sont même pas dans les variables d'environnement
Si vous avez une solution ce serait vraiment cool
PJ.
PS : Je m'excuse si ce problème a déjà été traité mais impossible de faire une recherche dans les anciens messages du forum car le caractère "%" est ignoré par le moteur de recherche WRI.
- cmc
- WRInaute discret

- Messages: 51
- Inscription: 5 Mai 2004
il y a quelque chose que je ne comprends pas :
si google a référencé cette url et qu'il a bien pu lire le titre et le contenu de cette page c'est qu'il a reussi à l'atteindre ...
je ne vois donc pas l'interet de placer un htaccess pour resoudre ce probleme. Je pense que c'est surement parametré à la racine du serveur sinon google n'aurait jamais hité cette page.
en tout cas j'ai essayé de mon côté et j'obtien une belle erreur 404
si google a référencé cette url et qu'il a bien pu lire le titre et le contenu de cette page c'est qu'il a reussi à l'atteindre ...
je ne vois donc pas l'interet de placer un htaccess pour resoudre ce probleme. Je pense que c'est surement parametré à la racine du serveur sinon google n'aurait jamais hité cette page.
en tout cas j'ai essayé de mon côté et j'obtien une belle erreur 404
-

SuperPJ - WRInaute impliqué

- Messages: 513
- Inscription: 15 Jan 2005
cmc a écrit:en tout cas j'ai essayé de mon côté et j'obtien une belle erreur 404
En fait ce qui est bizarre c'est que sous IE6, l'url http://%20annuaire.audiencestv.com marche mais pas sous FireFox. Idem pour l'url http://%20www.webrankinfo.com. Par contre si on essaie http://%20www.google.com eh bien sous les deux navigateurs ça renvoit une erreur 404.
Mais ce qui est certain c'est que Google indexe bel et bien ce type d'url, on ne sait trop pourquoi :
Quelques URL commençant par %20
Ce que j'ai fait pour l'instant pour ne pas propager ce "bug" c'est de placer des liens absolus et non plus relatifs sur toutes les pages de annuaire.audiencestv.com, mais j'espère trouver une solution plus efficace à ce problème
6 messages
• Page 1 sur 1
Formation recommandée sur ce thème :
Formation REFERENCEMENT naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.
Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.
Lectures recommandées sur ce thème :
- éviter un duplicate content
- comment éviter un duplicate content
- Éviter le duplicate content [résolu]
- comment eviter le duplicate content
- Comment éviter le duplicate content ?
- Eviter un problème de duplicate content
- Comment éviter duplicate content....
- comment eviter le Duplicate Content ?
- Eviter le duplicate content sur un blog
- Problème pour éviter le duplicate content
- La traduction d'un contenu peut-elle générer une pénalité de duplicate content ?
- l'attribut rel=nofollow contre le spam de commentaires ?
- Optimiser le référencement d'un blog Dotclear : balises TITLE et META
- Google AdWords introduit le concept de niveau de qualité
- Séminaires Google et Netlinking - 6 et 7 octobre 2004
- Les sites Bounce Pad, pénalisés par le filtre anti-duplicate content de Google ?
- Google Webmaster Tools alerte en cas de pb de duplicate content
- Détection de pages dupliquées
Cet outil vous permet de calculer la similarité entre 2 pages web. L'algorithme utilisé repose sur l'analyse des occurrences des mots (mais pas sur leur positionnement dans les pages). Google utilise cette notion à certains endroits dans son algorithme, mais de façon bien plus évoluée que ce petit outil... Avoir des pages trop similaires peut entraîner des problèmes d'indexation... Cet outil vous permettra peut-être de résoudre certains problèmes de contenus dupliqués.
Qui est en ligne
Utilisateurs parcourant ce forum: traserv et 0 invités


