Encodage de caractère
5 messages • Page 1 sur 1
Consultez la formation au référencement naturel Google de WebRankInfo / Ranking Metrics
- Invité
Encodage de caractère
Je dévellope actuellement moi même un petit moteur que j'incluerai dans mon site (c'est plus pour m'amuser qu'aute chose). Il gére les requêtes en HTTP/1.1 et suit tout les liens internes (en redirection 301 302 ou pas) en utilisant le fichier d'exclusion robots.txt.
D'ailleur WRI a été encore une fois des plus intéressant car il m'a permis de tester le transfert-encoding "chunked" : désolé olivier pour la quinzaine d'accés et j'en ferai peu être quelques autres
Le tout est parser (en gardant les tags "alt" des images) et mis en base MySQL pou premettre des recherches full-text.
Dans un permier tant le classement se fera sur le poid des mots et le niveau de la page dans le site. J'incluerai ensuite une "mini-dance" pour prendre en compte les liens et leur contenu.
Ma question:
Sur un autre site que j'ai crawler j'ai un encodage de caractère que je ne connais pas:
& #8220; pour " , & #8217; pour ' , & #330; pour œ
Quelle est le moyen de décoder génériquement ce genre de caractères car on sort du jeux de caractères ascii étendu tel que l'on pourrait s'y attendre après un .
Merci.
dk.
D'ailleur WRI a été encore une fois des plus intéressant car il m'a permis de tester le transfert-encoding "chunked" : désolé olivier pour la quinzaine d'accés et j'en ferai peu être quelques autres
Le tout est parser (en gardant les tags "alt" des images) et mis en base MySQL pou premettre des recherches full-text.
Dans un permier tant le classement se fera sur le poid des mots et le niveau de la page dans le site. J'incluerai ensuite une "mini-dance" pour prendre en compte les liens et leur contenu.
Ma question:
Sur un autre site que j'ai crawler j'ai un encodage de caractère que je ne connais pas:
& #8220; pour " , & #8217; pour ' , & #330; pour œ
Quelle est le moyen de décoder génériquement ce genre de caractères car on sort du jeux de caractères ascii étendu tel que l'on pourrait s'y attendre après un .
Merci.
dk.
Dernière édition par Invité le Ven Avr 30, 2004 17:35, édité 1 fois.
-

midnightfr - WRInaute passionné

- Messages: 529
- Inscription: Ven Mar 12, 2004 12:10
c'est le codage des caracteres spéciaux iso
voici un site avec la liste : et les équivalents genre &
lu aussi :
voici un site avec la liste : et les équivalents genre &
lu aussi :
Les numéros unicodes sont les numéros de ces caractères dans les polices «unicode». Comme il s'agit d'une numérotation sur 2 octets, ces numéros peuvent aller jusqu'à 65000 (en décimal).
-

midnightfr - WRInaute passionné

- Messages: 529
- Inscription: Ven Mar 12, 2004 12:10
Il est où ton site Midnightfr ?
oups, désolé, j'ai oublié de ctrl-v
Mais une petite recherche sur google t'aurai permis de le trouver tres vite. Tu connais google?
le voila :http://bohemica.free.fr/caracteres/caracteres1.htm
5 messages • Page 1 sur 1
Formation recommandée sur ce thème :
Formation Référencement naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.
Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.
Lectures recommandées sur ce thème :
- Robots.txt : Yahoo supporte les options avancées
- Google Sitemap Generator version 1.3
- Conseils d'optimisation de la balise TITLE (titre d'une page HTML)
- Exemple d'architecture d'un site multilingue pour le référencement
- Le début du full crawl
- Google Sets
- Google achète l'ile GoGooroa
- Référencement : TrustRank et sites dignes de confiance
- Publicité contextuelle Yahoo YPN (Yahoo! Publisher Network)
- Nombre moyen de mots par requête : statistiques AOL Août 2006
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités

le forum