Détection de la langue d'une page web

Consultez la formation au référencement naturel Google de WebRankInfo / Ranking Metrics


fabrisss
Nouveau WRInaute
 
Messages: 30
Inscription: Ven Jan 13, 2006 12:25

Détection de la langue d'une page web

Message le Mar Déc 19, 2006 21:49

Bonjour,

Je cherche une technique rapide et efficace pour que mon crawler puisse automatiquement détecter la langue d'une page web (disons que français, anglais et néérlandais seraient déjà un bon début), à défaut de balises META.

J'imagine que je peux arriver à quelque chose en comptant des mots-clés comme "le", "la", "les"...etc mais j'aimerais votre avis et des conseils plus précis.

Merci pour ce forum toujours très intéressant,


obi
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 238
Inscription: Mer Juil 26, 2006 10:53

Message le Mar Déc 19, 2006 23:03

Perso je vois deux approches:
1/L'attribut lang, qui peut être mis sur n'importe quel tag pour spécifier la langue de son contenu. Par exemple, les pages de ce forum ont sur leur tag <html> un attribut lang="fr", ce qui t'indique que ses pages sont en français. Disons que si tu la trouves, le nombre de chances pour qu'elle soit juste est raisonablement élevé. Attention, une page multi-lingue a plusieurs attributs lang.
2/Si tu as un contenu suffisemment grand, tu peux faire une analyse fréquentielle des lettres, caractéristique de la langue (voir http://www.techno-science.net/?onglet=g ... ition=6126 ), en ayant bien évidemment strippé tous les tags (tu peux garder les contenus des alt, longdesc et title).

Ensuite il y a d'autres indices, comme un nom de domaine national, mais le poids à y donner est assez faible...

Moof
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 182
Inscription: Sam Mar 22, 2003 16:50

Re: Détection de la langue d'une page web

Message le Mer Déc 20, 2006 15:32

fabrisss a écrit:Bonjour,

Je cherche une technique rapide et efficace pour que mon crawler puisse automatiquement détecter la langue d'une page web (disons que français, anglais et néérlandais seraient déjà un bon début), à défaut de balises META.

J'imagine que je peux arriver à quelque chose en comptant des mots-clés comme "le", "la", "les"...etc mais j'aimerais votre avis et des conseils plus précis.

Merci pour ce forum toujours très intéressant,


Peut être peux tu essayer de dénombrer la proportion des lettres ?
Par exemple, en français, les lettres les plus utilisés sont dans l'ordre : E S A N T I R U L O...

Si tu connais cet ordre pour les autres langues, tu fais un test statistique sur la page analyser et voilou
:D

Edit :

obi a écrit:Si tu as un contenu suffisemment grand, tu peux faire une analyse fréquentielle des lettres, caractéristique de la langue

Argh, je n'avais pas bien lu le message précédent. C'est de cela dont je voulais parler.

yep
WRInaute impliqué
WRInaute impliqué
 
Messages: 286
Inscription: Sam Avr 03, 2004 12:02

Message le Mer Déc 20, 2006 16:22

par défaut, chaque document HTML doivent proposer l'attribut 'lang' (précédemment cité) sur la balise <html> :
Code: Tout sélectionner
<html lang="xx">

cet attribut se trouve également sur d'autres balises (cf. plus haut).
Tu as également l'attribut 'hreflang' qui permet de donner la langue de la ressource linkée.


Formation recommandée sur ce thème :

Formation Référencement naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.

Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.

Lectures recommandées sur ce thème :



Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités