A
Anonymous
Guest
Je dévellope actuellement moi même un petit moteur que j'incluerai dans mon site (c'est plus pour m'amuser qu'aute chose). Il gére les requêtes en HTTP/1.1 et suit tout les liens internes (en redirection 301 302 ou pas) en utilisant le fichier d'exclusion robots.txt.
D'ailleur WRI a été encore une fois des plus intéressant car il m'a permis de tester le transfert-encoding "chunked" : désolé olivier pour la quinzaine d'accés et j'en ferai peu être quelques autres
Le tout est parser (en gardant les tags "alt" des images) et mis en base MySQL pou premettre des recherches full-text.
Dans un permier tant le classement se fera sur le poid des mots et le niveau de la page dans le site. J'incluerai ensuite une "mini-dance" pour prendre en compte les liens et leur contenu.
Ma question:
Sur un autre site que j'ai crawler j'ai un encodage de caractère que je ne connais pas:
& #8220; pour " , & #8217; pour ' , & #330; pour œ
Quelle est le moyen de décoder génériquement ce genre de caractères car on sort du jeux de caractères ascii étendu tel que l'on pourrait s'y attendre après un &#.
Merci.
dk.
D'ailleur WRI a été encore une fois des plus intéressant car il m'a permis de tester le transfert-encoding "chunked" : désolé olivier pour la quinzaine d'accés et j'en ferai peu être quelques autres
Le tout est parser (en gardant les tags "alt" des images) et mis en base MySQL pou premettre des recherches full-text.
Dans un permier tant le classement se fera sur le poid des mots et le niveau de la page dans le site. J'incluerai ensuite une "mini-dance" pour prendre en compte les liens et leur contenu.
Ma question:
Sur un autre site que j'ai crawler j'ai un encodage de caractère que je ne connais pas:
& #8220; pour " , & #8217; pour ' , & #330; pour œ
Quelle est le moyen de décoder génériquement ce genre de caractères car on sort du jeux de caractères ascii étendu tel que l'on pourrait s'y attendre après un &#.
Merci.
dk.