Encodage de caractère

A
Anonymous
Guest
Je dévellope actuellement moi même un petit moteur que j'incluerai dans mon site (c'est plus pour m'amuser qu'aute chose). Il gére les requêtes en HTTP/1.1 et suit tout les liens internes (en redirection 301 302 ou pas) en utilisant le fichier d'exclusion robots.txt.
D'ailleur WRI a été encore une fois des plus intéressant car il m'a permis de tester le transfert-encoding "chunked" : désolé olivier pour la quinzaine d'accés et j'en ferai peu être quelques autres :oops: :oops:
Le tout est parser (en gardant les tags "alt" des images) et mis en base MySQL pou premettre des recherches full-text.
Dans un permier tant le classement se fera sur le poid des mots et le niveau de la page dans le site. J'incluerai ensuite une "mini-dance" pour prendre en compte les liens et leur contenu.

Ma question:
Sur un autre site que j'ai crawler j'ai un encodage de caractère que je ne connais pas:
& #8220; pour " , & #8217; pour ' , & #330; pour œ

Quelle est le moyen de décoder génériquement ce genre de caractères car on sort du jeux de caractères ascii étendu tel que l'on pourrait s'y attendre après un &#.

Merci.
dk.
 
WRInaute occasionnel
c'est le codage des caracteres spéciaux iso
voici un site avec la liste : et les équivalents genre &

lu aussi :
Les numéros unicodes sont les numéros de ces caractères dans les polices «unicode». Comme il s'agit d'une numérotation sur 2 octets, ces numéros peuvent aller jusqu'à 65000 (en décimal).
 
WRInaute occasionnel
Il est où ton site Midnightfr ?

oups, désolé, j'ai oublié de ctrl-v

Mais une petite recherche sur google t'aurai permis de le trouver tres vite. Tu connais google? :wink:

le voila :http://bohemica.free.fr/caracteres/caracteres1.htm
 
Discussions similaires
Haut