Encodage de caractère

Anonymous · 30 Avril 2004

Je dévellope actuellement moi même un petit moteur que j'incluerai dans mon site (c'est plus pour m'amuser qu'aute chose). Il gére les requêtes en HTTP/1.1 et suit tout les liens internes (en redirection 301 302 ou pas) en utilisant le fichier d'exclusion robots.txt.
D'ailleur WRI a été encore une fois des plus intéressant car il m'a permis de tester le transfert-encoding "chunked" : désolé olivier pour la quinzaine d'accés et j'en ferai peu être quelques autres

Le tout est parser (en gardant les tags "alt" des images) et mis en base MySQL pou premettre des recherches full-text.
Dans un permier tant le classement se fera sur le poid des mots et le niveau de la page dans le site. J'incluerai ensuite une "mini-dance" pour prendre en compte les liens et leur contenu.

Ma question:
Sur un autre site que j'ai crawler j'ai un encodage de caractère que je ne connais pas:
& #8220; pour " , & #8217; pour ' , & #330; pour œ

Quelle est le moyen de décoder génériquement ce genre de caractères car on sort du jeux de caractères ascii étendu tel que l'on pourrait s'y attendre après un &#.

Merci.
dk.

midnightfr · 30 Avril 2004

c'est le codage des caracteres spéciaux iso
voici un site avec la liste : et les équivalents genre &

lu aussi :

Les numéros unicodes sont les numéros de ces caractères dans les polices «unicode». Comme il s'agit d'une numérotation sur 2 octets, ces numéros peuvent aller jusqu'à 65000 (en décimal).

turulillo · 30 Avril 2004

midnightfr a dit:
c'est le codage des caracteres spéciaux iso
voici un site avec la liste : et les équivalents genre &

Il est où ton site Midnightfr ?

midnightfr · 30 Avril 2004

Il est où ton site Midnightfr ?

oups, désolé, j'ai oublié de ctrl-v

Mais une petite recherche sur google t'aurai permis de le trouver tres vite. Tu connais google? :wink:

le voila :http://bohemica.free.fr/caracteres/caracteres1.htm

turulillo · 1 Mai 2004

midnightfr a dit:
Tu connais google?

Quesako ? ;-)
Merci