Importance du traitement des mots par Google

WRInaute passionné
J'étais sûr qu'avec la pomme de terre viendrait la pomme à terre :)

Merci pour cette "mise en bouche" :lol:
 
WRInaute occasionnel
Super intéressant cet article :p en plus j'ai appris des mots (lexème, morphème... première fois que j'entends parler de ces choses).

C'est donc pour moi un article très enrichissant.

Merci.
 
WRInaute impliqué
En revoyant certains termes, je me serais cru de retour à la fac :wink:
Excellent article qui donne encore plus de relief au travail de référencement !
 
Olivier Duffez (admin)
Membre du personnel
Je vois que l'accueil est très positif pour ce premier article, c'est bien ! Ca mérite même une petite reco !
 
WRInaute impliqué
Bonjour Véronique et merci pour ce début de linguistique. J'en ai étudié un peu .... hum :D il y a bien longtemps.
Il faudrait aussi des cours de français, de grammaire et de conjuguaison pour beaucoup d'entre les écrivains :D :D de sites
(pas ceux de wri ! :eek: ). Non je ne veux pas faire trop d'humour mais il est vrai que le référenceur doit connaître des bases de linguistique. Le web l'exigera d'eux petit à petit. Le chemin est encore long mais j'ai parfois été surprise par la rapidité des choses donc il faudrait mieux prendre un peu d'avance, je le concède. :)
 
WRInaute accro
merci pour ces précisions linguistiques et explications ;)

à lire ton article tu ne parles pas des reconnaissances d'expressions complètes, ni des questions que l'on a déjà posé aux moteurs qui peuvent aussi l'aider à trouver la bonne réponse
ex "apaumme de xeere" google répond en me proposant la pomme de terre
(néanmoins j'ai fais quelques essais auparavant et donc j'imagine bien que le moteur comprend/répond differemment selon si ce sera ma premiere demande ou bien (sur le meme poste et IP) la 5e, la 10e.
 
WRInaute passionné
Pour te répondre Thierry Bugs, il m'a proposé directement "pomme de terre" dès la première recherche (pour "apaumme de xeere").
 
Olivier Duffez (admin)
Membre du personnel
Thierry, tu fais référence à des traitements effectués par Google sur la base de l'historique des recherches faites par les internautes. Ca n'est pas tout à fait lié à l'analyse linguistique des textes publiés sur le web.
 
Nouveau WRInaute
Superbe à la fois cette nouvelle section des forums WRI et les interventions de Veronique. J'ai appris (ou ré-appris) plein de choses ce matin, et surtout cela pousse à se poser de nouvelles questions, ce qui est excellent ! :-D
Merci pour vos contributions, et j'ai hate de lire la suite de vos articles.

Quant à moi je vais retourner relire tous mon rédactionel et l'enrichir en variations morphologiques de lexèmes... :p (ça va, j'ai bon ? :wink: )

Sylv
 
Nouveau WRInaute
Bonjour,

Tout d'abord, merci pour vos articles très intéressants et bienvenue sur WRI :)
J'ai une question pour vous svp : ces traitements sematiques se font à quel étape ? pendant l'indexation des pages ou après la saisie de requête par l'internaute ?

Merci d'avance
 
Nouveau WRInaute
Des traitements morphologiques et sémantiques existent à ces deux étapes mais ne sont pas de même ampleur.
Les analyses les plus poussées sont réalisées pendant la phase d'indexation, les robots "lisent" et traitent l'information récupérée. Lorsqu'une requête est saisie, un traitement plus simple est opéré.
Le principe de la composition des mots (lexème, morphème) expliqué dans l'article est un point de départ, il est utilisé aussi bien pour l'indexation que pour le traitement de la requête. Il permet par exemple de reconnaître un mot quelle que soit son orthographe dans une page ou dans votre requête.
 
WRInaute passionné
Véronique a dit:
L'explication de cette phrase est fournie dans les trois lignes qui suivent (voir l'article).
Ma question est plus pratique que théorique.
Ce qui marche en théorie dans un labo n'est pas forcément efficace à l'échelle d'un moteur de recherche grand public.


Si je re-précise ma question :
Pensez-vous que Google utilise ces techniques de lemmatisation ? Pour la compréhension de la requête ? Pour l'analyse de la page ?
Si oui, quels indices permettent d'affirmer :
Les moteurs font ainsi des traitements sémantiques sur les mots plus avancés qu'il n'y paraît.


Merci de votre éclairage expert. :wink:
 
WRInaute impliqué
Ce qui sous-entendrait que pour chaque moteur "régional" (ex, pour le français, le finnois etc), il existerait une petite armée de linguistes qui ont participé aux algorithmes de recherche ? :?:
 
Olivier Duffez (admin)
Membre du personnel
@MagicYoyo : pour ta 1ère question, tu as la réponse juste au-dessus de ton post (ils se sont croisés)

pour l'autre : c'est pourtant écrit dans l'article !!!
- reconnaître un mot simple ou un mot composé grâce aux lexèmes ;
- reconnaître un même mot dans des formes différente grâce aux morphèmes (singulier/pluriel, masculin/féminin, conjugaison) ;
- de lier sémantiquement certains mots grâce aux lexèmes.

@honolulu : bien entendu
 
WRInaute impliqué
Sémantique et linguistique appliqué au Seo. !! Sujet intéressant s'il en est. Bienvenue parmi nous et merci pour ce forum.
 
WRInaute accro
Je UP le sujet (désolé) mais il est totalement approprié a ce que je cherche et sa relecture (je l'avais vu passer a l'époque de la création) ne m'apporte pas plus de réponses (si elles existent).

Je voudrais revenir sur l'exemple de la "pomme de terre" qui a un sens précis et différent de "pomme" ou "terre".
Si on applique le concept des lemmes a une partie de la phrase d'intro du sujet :
"Les relations particulières de Google avec la pomme de terre ou les pommes de terre."
on a une décomposition possible comme suit :
mots bruts / occurrences
de 3
terre 2
les 2
ou 1
pommes 1
pomme 1
avec 1
relations 1
particulières 1
google 1
la 1

lemmes / occurrences (les lemmes non identifiés comme "google" sont écartés de cette liste)
de 3
les 2
pomme 2
terre 2
la 1
particulier 1
avec 1
ou 1
relation 1

Si on se base sur une simple analyse des mots en écartant les mots de liaison on aurait tendance a penser que la phrase parle de "terre" (2 occurrences), si en revanche on se base sur les lemmes, cela prend plus de sens car on voie que les lemmes opèrent une sorte de pondération puisque c'est "pomme" et "terre" qui ressortent (2 occurrences chacun).

Mais le souci c'est que dans les deux cas "pomme de terre" ne sort pas (logique me direz vous c'est une forme composée).

Ma questions est donc comment pouvons nous envisager de détecter cette forme de mot qui casse tout le sens de la phrase ? sous forme d'algo bien sur ...

Il serait bien possible d'introduire "pomme de terre" et "pommes de terre" dans le dictionnaire de lemmes, mais alors nous serions face a un autre problème qui est le choix de la forme à retenir ...
Tout comme "pommes" qui a pour lemme "pomme" et qui peut être attribué :
au nom "pomme" pour son pluriel
ou au verbe "pommer" (subjonctif présent deuxième personne)
 
WRInaute accro
En fait je me demande comment fait google pour détecter les formes compliquées que l'on ne peut pas assimiler a des lemmes comme "pomme de terre" par exemple.

Ton article sur l'analyse des syntagmes répond en grande partie à cette question dans la mesure ou il semble que cela donne la possibilité d'extraire "pomme de terre" d'un corpus de texte, mais la mise en oeuvre d'un algo de ce type semble assez complexe. Je vais toutefois creuser un peut ce sujet pour voir si il n'y a pas moyen d'en sortir qque chose de "simple" (j'ai pas encore fouillé mais ça me semble "hard").

Mon idée est que je voudrais être en mesure de mesurer la pertinence d'un texte en comparant son analyse des lemmes a des moyennes connues tirées de la littérature (ça c'est pas compliqué et fonctionne déjà) tout en essayant d'en extraire le sujet (thème abordé).

Mais comme le montre le petit exemple ci dessus, les syntagmes viennent perturber fortement l'analyse du thème car arriver a la conclusion que la phrase parle de "terre" et "pomme" est complètement fantaisiste si on prend en compte les syntagmes et de fait "pomme de terre".
 
WRInaute accro
wiki a dit:
Limite entre mot composé et syntagme
Le syntagme, dont les éléments constitutifs sont généralement autonomes (par exemple, une « pomme de mon jardin »), doit être soigneusement distingué du mot composé, dont les éléments constitutifs sont indissociables, indivisibles, et dont l'ordre reste généralement figé (par exemple, une « pomme de terre »).
Un embryon de réponse pour moi, c'est pas déterminer les syntagmes (sous leur différentes formes) que je cherche à réaliser mais a identifier les "mots composés", ce qui dans mon approche est moins pertinent mais déjà plus avancé que de regarder juste les lemmes.
 
Discussions similaires
Haut