Détection de la langue d'une page web

fabrisss
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 30
Inscription: 13 Jan 2006

Détection de la langue d'une page web

Message le Mar Déc 19, 2006 21:49

Bonjour,

Je cherche une technique rapide et efficace pour que mon crawler puisse automatiquement détecter la langue d'une page web (disons que français, anglais et néérlandais seraient déjà un bon début), à défaut de balises META.

J'imagine que je peux arriver à quelque chose en comptant des mots-clés comme "le", "la", "les"...etc mais j'aimerais votre avis et des conseils plus précis.

Merci pour ce forum toujours très intéressant,


obi
WRInaute discret
WRInaute discret
 
Messages: 238
Inscription: 26 Juil 2006

Message le Mar Déc 19, 2006 23:03

Perso je vois deux approches:
1/L'attribut lang, qui peut être mis sur n'importe quel tag pour spécifier la langue de son contenu. Par exemple, les pages de ce forum ont sur leur tag <html> un attribut lang="fr", ce qui t'indique que ses pages sont en français. Disons que si tu la trouves, le nombre de chances pour qu'elle soit juste est raisonablement élevé. Attention, une page multi-lingue a plusieurs attributs lang.
2/Si tu as un contenu suffisemment grand, tu peux faire une analyse fréquentielle des lettres, caractéristique de la langue (voir http://www.techno-science.net/?onglet=g ... ition=6126 ), en ayant bien évidemment strippé tous les tags (tu peux garder les contenus des alt, longdesc et title).

Ensuite il y a d'autres indices, comme un nom de domaine national, mais le poids à y donner est assez faible...

Moof
WRInaute discret
WRInaute discret
 
Messages: 206
Inscription: 22 Mar 2003

Re: Détection de la langue d'une page web

Message le Mer Déc 20, 2006 15:32

fabrisss a écrit:Bonjour,

Je cherche une technique rapide et efficace pour que mon crawler puisse automatiquement détecter la langue d'une page web (disons que français, anglais et néérlandais seraient déjà un bon début), à défaut de balises META.

J'imagine que je peux arriver à quelque chose en comptant des mots-clés comme "le", "la", "les"...etc mais j'aimerais votre avis et des conseils plus précis.

Merci pour ce forum toujours très intéressant,


Peut être peux tu essayer de dénombrer la proportion des lettres ?
Par exemple, en français, les lettres les plus utilisés sont dans l'ordre : E S A N T I R U L O...

Si tu connais cet ordre pour les autres langues, tu fais un test statistique sur la page analyser et voilou
:D

Edit :

obi a écrit:Si tu as un contenu suffisemment grand, tu peux faire une analyse fréquentielle des lettres, caractéristique de la langue

Argh, je n'avais pas bien lu le message précédent. C'est de cela dont je voulais parler.

yep
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 286
Inscription: 3 Avr 2004

Message le Mer Déc 20, 2006 16:22

par défaut, chaque document HTML doivent proposer l'attribut 'lang' (précédemment cité) sur la balise <html> :
Code: Tout sélectionner
<html lang="xx">

cet attribut se trouve également sur d'autres balises (cf. plus haut).
Tu as également l'attribut 'hreflang' qui permet de donner la langue de la ressource linkée.


Si vous avez aimé cette discussion, partagez-la sur vos réseaux sociaux préférés :

Lectures recommandées sur ce thème :

  • Détection de pages dupliquées
    Cet outil vous permet de calculer la similarité entre 2 pages web. L'algorithme utilisé repose sur l'analyse des occurrences des mots (mais pas sur leur positionnement dans les pages). Google utilise cette notion à certains endroits dans son algorithme, mais de façon bien plus évoluée que ce petit outil... Avoir des pages trop similaires peut entraîner des problèmes d'indexation... Cet outil vous permettra peut-être de résoudre certains problèmes de contenus dupliqués.
  • Analyse de la classe C (adresse IP)
    Cet outil vous permet de vérifier si plusieurs sites sont hébergés sur la même classe C (adresse IP du serveur).
  • Tester le type de redirection
    Cet outil vous permet de tester la validité d'un lien pour le référencement. Il vous indique la nature du lien (lien en dur, redirection bien gérée par les moteurs ou redirection mal gérée par les moteurs).


Qui est en ligne

Utilisateurs parcourant ce forum: salva et 0 invités