Détection de la langue d'une page web
4 messages • Page 1 sur 1
Consultez la formation au référencement naturel Google de WebRankInfo / Ranking Metrics
Détection de la langue d'une page web
Bonjour,
Je cherche une technique rapide et efficace pour que mon crawler puisse automatiquement détecter la langue d'une page web (disons que français, anglais et néérlandais seraient déjà un bon début), à défaut de balises META.
J'imagine que je peux arriver à quelque chose en comptant des mots-clés comme "le", "la", "les"...etc mais j'aimerais votre avis et des conseils plus précis.
Merci pour ce forum toujours très intéressant,
Je cherche une technique rapide et efficace pour que mon crawler puisse automatiquement détecter la langue d'une page web (disons que français, anglais et néérlandais seraient déjà un bon début), à défaut de balises META.
J'imagine que je peux arriver à quelque chose en comptant des mots-clés comme "le", "la", "les"...etc mais j'aimerais votre avis et des conseils plus précis.
Merci pour ce forum toujours très intéressant,
Perso je vois deux approches:
1/L'attribut lang, qui peut être mis sur n'importe quel tag pour spécifier la langue de son contenu. Par exemple, les pages de ce forum ont sur leur tag <html> un attribut lang="fr", ce qui t'indique que ses pages sont en français. Disons que si tu la trouves, le nombre de chances pour qu'elle soit juste est raisonablement élevé. Attention, une page multi-lingue a plusieurs attributs lang.
2/Si tu as un contenu suffisemment grand, tu peux faire une analyse fréquentielle des lettres, caractéristique de la langue (voir http://www.techno-science.net/?onglet=g ... ition=6126 ), en ayant bien évidemment strippé tous les tags (tu peux garder les contenus des alt, longdesc et title).
Ensuite il y a d'autres indices, comme un nom de domaine national, mais le poids à y donner est assez faible...
1/L'attribut lang, qui peut être mis sur n'importe quel tag pour spécifier la langue de son contenu. Par exemple, les pages de ce forum ont sur leur tag <html> un attribut lang="fr", ce qui t'indique que ses pages sont en français. Disons que si tu la trouves, le nombre de chances pour qu'elle soit juste est raisonablement élevé. Attention, une page multi-lingue a plusieurs attributs lang.
2/Si tu as un contenu suffisemment grand, tu peux faire une analyse fréquentielle des lettres, caractéristique de la langue (voir http://www.techno-science.net/?onglet=g ... ition=6126 ), en ayant bien évidemment strippé tous les tags (tu peux garder les contenus des alt, longdesc et title).
Ensuite il y a d'autres indices, comme un nom de domaine national, mais le poids à y donner est assez faible...
Re: Détection de la langue d'une page web
fabrisss a écrit:Bonjour,
Je cherche une technique rapide et efficace pour que mon crawler puisse automatiquement détecter la langue d'une page web (disons que français, anglais et néérlandais seraient déjà un bon début), à défaut de balises META.
J'imagine que je peux arriver à quelque chose en comptant des mots-clés comme "le", "la", "les"...etc mais j'aimerais votre avis et des conseils plus précis.
Merci pour ce forum toujours très intéressant,
Peut être peux tu essayer de dénombrer la proportion des lettres ?
Par exemple, en français, les lettres les plus utilisés sont dans l'ordre : E S A N T I R U L O...
Si tu connais cet ordre pour les autres langues, tu fais un test statistique sur la page analyser et voilou
Edit :
obi a écrit:Si tu as un contenu suffisemment grand, tu peux faire une analyse fréquentielle des lettres, caractéristique de la langue
Argh, je n'avais pas bien lu le message précédent. C'est de cela dont je voulais parler.
par défaut, chaque document HTML doivent proposer l'attribut 'lang' (précédemment cité) sur la balise <html> :
cet attribut se trouve également sur d'autres balises (cf. plus haut).
Tu as également l'attribut 'hreflang' qui permet de donner la langue de la ressource linkée.
- Code: Tout sélectionner
<html lang="xx">
cet attribut se trouve également sur d'autres balises (cf. plus haut).
Tu as également l'attribut 'hreflang' qui permet de donner la langue de la ressource linkée.
4 messages • Page 1 sur 1
Formation recommandée sur ce thème :
Formation Référencement naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.
Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.
Lectures recommandées sur ce thème :
- Sortie officielle de GoogleStats v2.0 !
- Référencer un site multilingue
- Sortie de GoogleStats v2.01
- Brevet de Google sur le contenu dupliqué
- Le système de crawl de Google en 2008
- Le blog officiel de Google au Japon
- Algorithme de détection du link spam de masse
- Gestion des langues et des sessions en PHP / MySQL
- Articles de R et D sur le PageRank, le SpamRank et le spam...
- Interview de l'équipe qualité de Google (francophone)
- Detection de la langue
- Test de détection de langue
- Comparaison de contenus de sites web (détection plagiat)
- Résultats Web et par langue nationalisés ?
- [Robotstats] Problème de conflit langue robot/langue site
- Metas dans une langue ne figurant pas dans le site web
- Détection du navigateur + Reroutage
- petites annonces et détection IP.
- Détection des bots
- détection fermeture navigateur ?
- Detection robots SPAM
- Pb détection ndd blacklisté
- detection de chaine de caractère
- Outil de détection de plagiat
- Détection navigateur...
- Analyse de la classe C (adresse IP)
Cet outil vous permet de vérifier si plusieurs sites sont hébergés sur la même classe C (adresse IP du serveur).
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités





le forum