Coder ou non les caractères accentués

Nouveau WRInaute
Bonjour,

> Un sujet déja vu mais non actualisé :
Les caractères spéciaux

> Question :
Est-il préférable aujourd'hui (Oct 2009) pour le référencement et l'internaute de coder les caractères accentués dans le code source, exemple : "é" en "é" ou non ? (Peu importe le charset)

Merci d'avance pour vos réponses !
 
WRInaute accro
Non. Tant que l'encodage de ce que tu envoies correspond au charset indiqué dans le content-type, ce n'est absolument pas nécessaire.

Jacques.
 
Nouveau WRInaute
Bonjour,

c'est une bonne nouvelle, car beaucoup de webmasters travaillent "en dur", et n'ont pas toujours d'éditeur HTML sous la main, surtout lorsqu'ils sont en déplacement.

Mais pourquoi certains résultats de Google ressortent avec des codes bizzares ?

Christian Binot
 
WRInaute accro
Si tu nous donnais des exemples ce serait plus facile :)

Mais le cas général, c'est que le charset indiqué dans le Content-Type soit absent ou ne corresponde pas à l'encodage effectivement utilisé. Si ta page est en UTF-8 mais qu'elle dit être en ISO-8859-1 (ou l'inverse), forcément ça ne marchera pas très bien.

Jacques.
 
WRInaute impliqué
Bonjour, je préfère également mettre du UTF-8, mais je me pose une question, y a t'il une bonne raison d'utiliser autre chose, comme ISO-8859-1 puisque je crois que tous les caractères sont disponibles en UTF-8 ?
 
WRInaute accro
UTF-8 est à mon avis la meilleure solution, puisqu'elle permet effectivement de coder tout ce qu'on veut sans ambiguïté. Les codages ISO-8859-* sont plutôt historiques maintenant, et ne sont utiles que si ça te pose des problèmes techniques d'utiliser de l'UTF-8 (tu n'as pas d'éditeur adapté, ton environnement de développement ne le supporte pas, tu as tout ton contenu en ISO-8859-* et tu ne veux/peux pas le toucher...).

Perso je fais tout en UTF-8 et je conseille à tout le monde de faire de l'UTF-8 sur les nouveaux projets. Sur les projets déjà existants, faire le migration peut être problématique par contre.

Jacques.
 
WRInaute accro
Est-ce qu'il reste des navigateurs qui ne lisent pas l'UTF8, et dans quelle proportion ? J'ai eu un commentaire de quelqu'un qui ne lisait pas les accents alors que dans tous mes tests sur différents pc ça marchait bien.
 
WRInaute accro
Il doit y en avoir, mais je pense que c'est très très faible, surtout des browsers exotiques genre lynx, ou des browsers "embedded". Moi je suis passé à l'UTF-8 vers 2003 ou 2004, et à l'époque j'avais regardé et l'immense majorité des navigateurs supportait déjà (comme je suis plutôt très conservateur, c'est qu'a priori c'était vraiment une très très large majorité), et entre temps ça n'a pu que s'améliorer. C'est supporté depuis au moins IE6...

Evidemment il faut que tu t'assures que tu envoies le content-type avec le (bon) charset. Il est possible que les browsers modernes soient plus capables de "deviner" le charset si tu ne le précises pas, par exemple.

Jacques.
 
WRInaute accro
C'est vrai que je traine avec des sites dans différents charsets depuis un moment. Comme je suis en train de tout passer en xhtml autant en profiter pour tout passer à l'utf-8.
Pour les erreurs il n'y a pas seulement le charset et le content-type, il y a un troisième paramètre que je n'avais pas compris tout de suite c'est l'encodage de l'éditeur. Quand on ouvre plein de pages en même temps dans notepad++ on peut facilement se faire piéger par une copier-coller un peu vite fait. J'ai l'impression que beaucoup d'erreurs de cache de Google viennent de là.
Récemment j'ai même découvert qu'un mauvais encodage du sitemap (.txt donc sans encoding) empêchait Google de le lire (il est un peu de mauvaise foi sur ce coup-là)
Fred
 
WRInaute accro
Ben ça ne fait pas "un paramètre en plus", ce sont bien les deux choses qui vont ensemble: l'encodage du fichier, et l'encodage annoncé (dans le charset).

Pour le sitemap, à moins que tu ne l'aies sauvegardé en UCS-4 ou -4 (aka UTF-16 ou UTF-32), je ne vois pas vraiment ce qui gênerait, il n'y a rien dans un sitemap qui puisse être encodé différemment en utf-8 ou en ISO-8859-1, vu que de toutes façons tout doit être en ASCII 7 bits? Eventuellement si tu lui colles un BOM ça pourrait le troubler...

Jacques.
 
WRInaute accro
J'ai refait quelques essais pour essayer de reproduire l'erreur mais rien à faire ça marche du premier coup.
Je compte 4 paramètre pour ma part :
- charset du .htaccess
- encodage du fichier
- charset de la balise meta
- format (ansi/mac/unix)
Je ne sais pas lequel a coincé, surtout pour un .txt de 8 lignes, et surtout que les fichiers incriminés sont à la poubelle, mais je passe tous mes sites sur unix/utf-8 depuis deux jours et de temps en temps je tombe sur une page en ansi ou en iso qui s'est glissée là discrètement. Il y avait quelques BOM aussi tu as raison ça peut être ça. Ça m'apprendra à être rigoureux.
 
Nouveau WRInaute
Bonjour tout le monde,

J'ai bien lu tous les post associés au "é" ou "é" mais je ne trouve pas réponse à ma question.

J'utilise un CHARSET UTF-8 et les lettres accentués sont affichés "é" dans le code source, et pas de problème coté internaute qui voit correctement les lettres accentués.

Par contre quand j'utilise des outils pour analyser mon contenu textuel et ma densité de mots clés je me retrouve avec des mots clés du type "spécialiste" ou "sp cialiste" au lieu de "spécialiste" ce qui peut avoir un effet très néfaste sur mon référencement.

Je n'ai pas encore accès à Google Webmaster, Bing Webmaster ou Yahoo site Explorer qui me permettrait de voir comment Google, Bing ou Yahoo interprètent mes mots clés.

En attendant que je puisse y avoir accès quelqu'un sait s'il faut que je remplace les "é" en "é" dans mon code source ?
Dois je laisser les "é" dans la balise TITLE et META DESCRIPTION ?

Merci d'avance. :wink:
 
WRInaute accro
Certains outils un peu anciens et/ou exclusivement anglophones ne gèrent pas tous les encodages possibles correctement, ils peuvent donc afficher des choses bizarres. Les moteurs sont eux parfaitement capable d'interpréter correctement aussi bien de l'UTF-8 que de l'ISO-8859-*, que des entités html (é etc.).

Jacques.
 
Discussions similaires
Haut