Messages: 769

Enregistré le: 8 Fév 2003

Message le Sam Fév 10, 2007 10:27

C'est LSI, ou LSA, et non lci . :wink:

Ceux qui y "adhèrent complètement" comme tu dis agitent surtout leur maîtrise de LSI pour attirer des clients en expliquant comment ils vont pouvoir faire des miracles avec cette méthode scientifique.

Maintenant, quand on lit leur prose, on se marre souvent car elle révèle qu'ils ne comprennent pas plus LSI que... leurs clients.

J'ai écrit un article sur le blog d'un référenceur bien connu pour éviter que, comme dans la seosphere anglophone, les référenceurs francophones prennent ces arguments attrape-gogos pour argent comptant. WRI s'en était fait l'écho à l'époque :

http://www.webrankinfo.com/actualites/200610-latent-semantic-indexing.htm

J'avais tendance à penser (comme beaucoup apparement) que la lci est à prendre en compte dans notre façon de rédiger nos pages. Mais ca reste seulement intuitif.


En fait, il est franchement difficile (voire impossible) de rédiger ses pages avec LSI en tête... Ce que révèle LSI, ce sont des relations cachées entre des éléments qui a première vue ne sont pas corrélés. Mais cet ordre latent n'est que la résultante directe de la structure de la pensée humaine telle qu'elle est couchée noir sur blanc dans un texte en langage naturel.
LSI est avant tout une méthode d'analyse statistique des termes contenu dans des textes, et ce n'est pas une méthode d'optimisation. On peut l'utiliser au coeur d'un moteur de recherche, certains ont expérimenté la méthode, avec plus ou moins de bonheur, car le paramétrage est difficile et surtout diffère selon les corpus analysés et les objectifs poursuivis.

Je comprend que l'on puisse faire le raisonnement suivant : "si un nouvel algo est utilisé, je dois adapter mon référencement à cette nouvelle méthode". Donc si Google utilise LSI, je dois optimiser mes pages en pensant à LSI.

En fait, ce qu'il faut se dire, c'est que tous les moteurs utilisent intensivement des méthodes de linguistique statistique dans leurs algos. Lesquelles, quelles variantes ? On ne sait pas exactement, c'est leur secret le mieux gardé. Mais quelle que soit la méthode utilisée, comme on ne la connait pas, ce qui marche le mieux, c'est d'écrire des textes en langage naturel, et par ailleurs de travailler sur les autres critères "in page" dont l'effet sur le référencement est, par contre, facilement identifiable voire mesurable.

Les tentatives pour "doper" les textes avec des méthodes statistiques sont souvent hasardeuses, surtout si elles sont utilisées par des gens qui ne savent pas interpréter les résultats.

Par exemple : si vous aspirez les 100 premiers titres/snippets des résultats de google sur une requête donnée, que vous les passez dans une moulinette pour calculer leurs taux de cooccurence, et que vous regardez les termes qui ressortent avec le plus fort taux pour les inclure dans vos pages, vous allez en réalité faire reculer votre référencement. Les termes qu'il faut réellement inclure se trouvent parfois à partir de la dixième ou de la vingtième position ! Choisir les bons termes demande une très bonne connaissance des mécanismes à l'oeuvre dans les outils statistiques, de savoir les interpréter, et même d'une bonne expérience de leur utilisation en référencement car cela reste très très empirique.

La méthode la plus économique et la plus sûre, c'est le plus souvent d'écrire en langage naturel.
Haut
Messages: 23081

Enregistré le: 19 Avr 2002

Message le Dim Fév 11, 2007 8:40

Salut Cariboo, ça faisait un bail ;-)
Merci pour tes explications, y'a pas à dire tu sais bien ce qu'il faut expliquer sur la LSI.
Quand tu dis
Cariboo a écrit:Les termes qu'il faut réellement inclure se trouvent parfois à partir de la dixième ou de la vingtième position !
tu fais comment pour savoir quels termes sélectionner ? Sur quoi tu te bases pour dire que les termes trouvés dans les tout premiers résultats vont dégrader ton référencement ?
Olivier
Haut
Messages: 769

Enregistré le: 8 Fév 2003

Message le Dim Fév 11, 2007 9:27

Quand on analyse un texte avec ce genre de méthodes statistiques, les termes qui sortent avec un très fort taux sont ceux rattachés à la thématique générale dont parle le texte, ceux avec un taux moyen sont ceux liés à la thématique, et ceux avec un taux plus faible sont ceux liés à des sous-thématiques plus précises. C'est très schématique ce que je dis là mais en gros c'est ça.

Donc si on prend les premiers termes, on déplace la thématique du texte vers la thématique générale, au lieu de l'ancrer dans la thématique précise dont il parle à l'origine.

La méthode pour déterminer quels termes choisir est empirique. Du moins je n'ai pas trouvé de règles dans la littérature sur le sujet permettant de dire "à partir de tel rang c'est bon". Parce qu'il n'y a pas que le classement qui compte, le niveau du taux de cooccurence doit être pris en compte aussi, or le nombre de termes ayant un fort taux de cooccurence varie suivant les textes analysés et leur sujet.

Tout l'art de la méthode est de savoir où commencer et où s'arrêter. Autant dire que souvent ce travail peut se faire intuitivement sans recours à cette méthode, surtout si on maîtrise le sujet à traiter.
Haut
Messages: 41

Enregistré le: 30 Nov 2006

Message le Lun Fév 12, 2007 1:42

Beh, j'aurais pas posté pour rien, merci de ces explications limpides.


En supposant que l'algorithme de google soit parfait, il serait judicieux d'analyser un ensemble important de textes portant sur la thématique que l'on souhaite traiter. On pourrait alors supposer, si la quantité de texte est suffisante, avoir un bon aperçu du vocabulaire employé pour cette thématique et en quel proportion. Il n'y aurait plus qu'a comparer avec son propre texte et le réequilibrer de façon à coller un maximum avec l'analyse .

Après quant à savoir jusqu'ou cela doit coller, il n'y a comme méthode que notre bon sens (par exemple, si la thématique est les couches pour bébés, quand tu est allé suffisament loin pour voir des termes comme ménopause, et béh .. tu est allé trop loin (quoi que ...) :) ) .

Pour les textes séléctionnés dans l'analyse, choisir les premiers sur les SERP de google n'est pas vraiment important. L'algorithme changera et le but n'est donc pas de coller à des textes qui se positionne bien pour le moment, mais tout simplement d'avoir le texte le plus pertinent possible (en apparence tout du moins). Et dans ce cas là, la qualité (ou plûtot toujours la pertinence) des textes séléctionné pour l'analyse importe peut. Même si ils sont mal écrits, cela se compensera en en prenant une quantité suffisante.

A la lumière de tes posts voilà ce que j'ai compris. Bon la méthode est assez coûteuse en temps mais autrement ... j'ai bon ? :wink:

Ton article chez S.Billard est très intérressant, il permet une bonne approche du concept. Y a-t-il sur la toile des documents expliquant la "mécanique" mathématique liée à la L.S.I (plus en détail) ?
Haut
Messages: 73

Enregistré le: 6 Mar 2007

Message le Jeu Nov 29, 2007 16:51

Effectivement Cariboo tu fais un article très interessant, mais...

Si on va jusqu'à des sous thematiques en fonction de la densité, tout devient très vite interconnecté dans le sens ou, à partir de "ménopose" on peut aller vers medecine, puis médicament, puis dopage, puis sport...

En partant donc de "bébé", on arrive à "sport", ne serait on pas aller trop loin..???

Je vois ca plutot dans l'autre sens.
Le termes avec des densités les plus élévés seraient les sujet précises, et les termes moins dense seraient des ensembles thématiques
Haut