Détection de la langue d'une page web
4 messages
• Page 1 sur 1
- fabrisss
- Nouveau WRInaute

- Messages: 30
- Inscription: 13 Jan 2006
Détection de la langue d'une page web
Bonjour,
Je cherche une technique rapide et efficace pour que mon crawler puisse automatiquement détecter la langue d'une page web (disons que français, anglais et néérlandais seraient déjà un bon début), à défaut de balises META.
J'imagine que je peux arriver à quelque chose en comptant des mots-clés comme "le", "la", "les"...etc mais j'aimerais votre avis et des conseils plus précis.
Merci pour ce forum toujours très intéressant,
Je cherche une technique rapide et efficace pour que mon crawler puisse automatiquement détecter la langue d'une page web (disons que français, anglais et néérlandais seraient déjà un bon début), à défaut de balises META.
J'imagine que je peux arriver à quelque chose en comptant des mots-clés comme "le", "la", "les"...etc mais j'aimerais votre avis et des conseils plus précis.
Merci pour ce forum toujours très intéressant,
-

obi - WRInaute discret

- Messages: 238
- Inscription: 26 Juil 2006
Perso je vois deux approches:
1/L'attribut lang, qui peut être mis sur n'importe quel tag pour spécifier la langue de son contenu. Par exemple, les pages de ce forum ont sur leur tag <html> un attribut lang="fr", ce qui t'indique que ses pages sont en français. Disons que si tu la trouves, le nombre de chances pour qu'elle soit juste est raisonablement élevé. Attention, une page multi-lingue a plusieurs attributs lang.
2/Si tu as un contenu suffisemment grand, tu peux faire une analyse fréquentielle des lettres, caractéristique de la langue (voir http://www.techno-science.net/?onglet=g ... ition=6126 ), en ayant bien évidemment strippé tous les tags (tu peux garder les contenus des alt, longdesc et title).
Ensuite il y a d'autres indices, comme un nom de domaine national, mais le poids à y donner est assez faible...
1/L'attribut lang, qui peut être mis sur n'importe quel tag pour spécifier la langue de son contenu. Par exemple, les pages de ce forum ont sur leur tag <html> un attribut lang="fr", ce qui t'indique que ses pages sont en français. Disons que si tu la trouves, le nombre de chances pour qu'elle soit juste est raisonablement élevé. Attention, une page multi-lingue a plusieurs attributs lang.
2/Si tu as un contenu suffisemment grand, tu peux faire une analyse fréquentielle des lettres, caractéristique de la langue (voir http://www.techno-science.net/?onglet=g ... ition=6126 ), en ayant bien évidemment strippé tous les tags (tu peux garder les contenus des alt, longdesc et title).
Ensuite il y a d'autres indices, comme un nom de domaine national, mais le poids à y donner est assez faible...
- Moof
- WRInaute discret

- Messages: 206
- Inscription: 22 Mar 2003
Re: Détection de la langue d'une page web
fabrisss a écrit:Bonjour,
Je cherche une technique rapide et efficace pour que mon crawler puisse automatiquement détecter la langue d'une page web (disons que français, anglais et néérlandais seraient déjà un bon début), à défaut de balises META.
J'imagine que je peux arriver à quelque chose en comptant des mots-clés comme "le", "la", "les"...etc mais j'aimerais votre avis et des conseils plus précis.
Merci pour ce forum toujours très intéressant,
Peut être peux tu essayer de dénombrer la proportion des lettres ?
Par exemple, en français, les lettres les plus utilisés sont dans l'ordre : E S A N T I R U L O...
Si tu connais cet ordre pour les autres langues, tu fais un test statistique sur la page analyser et voilou
Edit :
obi a écrit:Si tu as un contenu suffisemment grand, tu peux faire une analyse fréquentielle des lettres, caractéristique de la langue
Argh, je n'avais pas bien lu le message précédent. C'est de cela dont je voulais parler.
- yep
- WRInaute occasionnel

- Messages: 286
- Inscription: 3 Avr 2004
par défaut, chaque document HTML doivent proposer l'attribut 'lang' (précédemment cité) sur la balise <html> :
cet attribut se trouve également sur d'autres balises (cf. plus haut).
Tu as également l'attribut 'hreflang' qui permet de donner la langue de la ressource linkée.
- Code: Tout sélectionner
<html lang="xx">
cet attribut se trouve également sur d'autres balises (cf. plus haut).
Tu as également l'attribut 'hreflang' qui permet de donner la langue de la ressource linkée.
4 messages
• Page 1 sur 1
Lectures recommandées sur ce thème :
- Detection de la langue
- Test de détection de langue
- Site multilingue et détection de la langue
- La détection automatique de la langue du navigateur!!!
- Détection automatique de la langue du navigateur : risque pour le SEO
- Comparaison de contenus de sites web (détection plagiat)
- Résultats Web et par langue nationalisés ?
- liens vers mon site web avec une autre langue
- [Robotstats] Problème de conflit langue robot/langue site
- Metas dans une langue ne figurant pas dans le site web
- Algorithme de détection du link spam de masse - 09-11-2005
- Référencer un site multilingue - 24-04-2004
- Articles de R et D sur le PageRank, le SpamRank et le spam... - 09-12-2005
- Le blog officiel de Google au Japon - 01-03-2006
- Gestion des langues et des sessions en PHP / MySQL - 02-05-2004
- Google rachète Teracent - 24-11-2009
- Google Code Search : moteur de recherche de codes sources - 05-10-2006
- Moteur de recherche dans les blogs de Google - 24-01-2007
- Détection de pages dupliquées
Cet outil vous permet de calculer la similarité entre 2 pages web. L'algorithme utilisé repose sur l'analyse des occurrences des mots (mais pas sur leur positionnement dans les pages). Google utilise cette notion à certains endroits dans son algorithme, mais de façon bien plus évoluée que ce petit outil... Avoir des pages trop similaires peut entraîner des problèmes d'indexation... Cet outil vous permettra peut-être de résoudre certains problèmes de contenus dupliqués. - Analyse de la classe C (adresse IP)
Cet outil vous permet de vérifier si plusieurs sites sont hébergés sur la même classe C (adresse IP du serveur). - Tester le type de redirection
Cet outil vous permet de tester la validité d'un lien pour le référencement. Il vous indique la nature du lien (lien en dur, redirection bien gérée par les moteurs ou redirection mal gérée par les moteurs).
Qui est en ligne
Utilisateurs parcourant ce forum: salva et 0 invités
