Messages: 22758

Enregistré le: 19 Avr 2002

Message le Sam Fév 19, 2005 12:00

[message posté en complément du blog]

Google utilise-t-il les techniques de Latent Semantic Indexing? Lisez la dernière newsletter d'Axandra (en anglais) pour mieux comprendre comment Google pourrait bien accorder plus de poids aux notions de Latent Semantic Indexing (LSI) depuis la dernière mise à jour de son algorithme :

- Qu'est-ce que "latent semantic indexing?" ?
- Pourquoi est-ce important pour le référencement ?
- Où peut-on trouver plus d'information au sujet de LSI ?

Voici un extrait (traduit) de cette lettre :

Latent semantic indexing aide les moteurs de recherche à comprendre de quoi traite une page web. En gros, il faut comprendre qu'il n'est pas nécessaire de se focaliser sur un seul mot-clé quand on optimise des pages web et qu'on cherche à développer les backlinks.

Les pages de votre site sont certainement similaires (en terme des sujets abordés) et sont centrées sur un sujet donné, même si elles utilisent des mots différents. Voilà ce qu'il faut faire : utiliser des mots différents pour décrire un même sujet, utiliser des variations du mot ou des synonymes. Ceci aidera sans doute les moteurs de recherche à déterminer le sujet de votre site.


Pour ma part, je me demande si c'est vraiment utilisé par Google pour les pages en français. L'opérateur ~ par exemple ne fonctionne pas pour le français.

Qu'en pensez-vous ?
Haut
34 Réponses
Messages: 1174

Enregistré le: 15 Mar 2003

Message le Sam Fév 19, 2005 14:58

Je doute que cela soit utilisé à la vue des résultats peu probants de la commande related qui serait la première à utiliser cette technologie ... Mais si l'on y vient cela ne fera qu'améliorer la pertinence de Google que ce soit pour les recherches ou pour les Adsense.
Haut
Messages: 4909

Enregistré le: 17 Aoû 2004

Message le Sam Fév 19, 2005 19:31

je suis convaincue que cette technologie est déjà utilisée depuis longtemps par Google (sous cette forme ou sous une autre) ... pour moi cela rejoint la notion de thématique ...
nous l'avons expérimentée depuis longtemps sur nos sites d'e-commerce : par exemple sur une page qui parle d'imprimante, nous aurons tendance à générer des liens vers d'autres modèles d'imprimantes, et si cette page parle plus particulièrement d'imprimante HP, alors nous générons des liens vers d'autres modèles d'imprimantes HP (c'est ce que nous appellons "génération de liens thématique") ... et ainsi de suite pour chaque gamme de produits ... et cela donne de très bons résultats ...
je suis convaincue que cela augmente la pertinence des pages appellantes et appellées sur une thématique donnée ...
Haut
Messages: 22758

Enregistré le: 19 Avr 2002

Message le Sam Fév 19, 2005 19:37

moi aussi je pense que c'est utilisé, mais je fais remarquer qu'il n'est pas évident que ce soit aussi avancé en français qu'en anglais.

le related: est basé sur les liens semble-t-il, et non pas sur les aspects sémantiques

alors que l'opérateur ~ semble être bcp plus proche de ce genre de technos.

comparez en anglais ~car (qui met en gras des termes sémantiquement proches des voitures) et en français ~voiture qui ne met en gras que le mot voiture (ou voitures)

Cendrillon, les résultats de ta technique sont peut-être liés aux liens que tu ajoutes entre tes pages
Haut
Messages: 1040

Enregistré le: 22 Juil 2004

Message le Sam Fév 19, 2005 19:39

Cendrillon a écrit:je suis convaincue que cette technologie est déjà utilisée depuis longtemps par Google (sous cette forme ou sous une autre) ... pour moi cela rejoint la notion de thématique ...
nous l'avons expérimentée depuis longtemps sur nos sites d'e-commerce : par exemple sur une page qui parle d'imprimante, nous aurons tendance à générer des liens vers d'autres modèles d'imprimantes, et si cette page parle plus particulièrement d'imprimante HP, alors nous générons des liens vers d'autres modèles d'imprimantes HP (c'est ce que nous appellons "génération de liens thématique") ... et ainsi de suite pour chaque gamme de produits ... et cela donne de très bons résultats ...
je suis convaincue que cela augmente la pertinence des pages appellantes et appellées sur une thématique donnée ...


Message bien reçu, merci Cendrillon !
Haut
Messages: 1174

Enregistré le: 15 Mar 2003

Message le Sam Fév 19, 2005 19:42

Finalement d'accord avec toi Olivier, mais comment se fait-ce qu'ils ne l'utilisent pas pour related: qui veut bien dire "en rapport" ... Car là actuellement ne sert à rien du tout ...
Haut
Messages: 2870

Enregistré le: 24 Mai 2004

Message le Sam Fév 19, 2005 20:12

Voilà ce qu'il faut faire : utiliser des mots différents pour décrire un même sujet, utiliser des variations du mot ou des synonymes. Ceci aidera sans doute les moteurs de recherche à déterminer le sujet de votre site.


Si je comprends bien, cela voudrait dire que GG appliquerait une compréhension sémantique :
- au contenu de la page
- aux liens vers la page

Il en résulterai pour la page :
- que optimiser une page sur un mot-clé n'est plus nécessaire
- que trop spécialiser une page expose a un risque confusion dans les termes et i.e. dans la définition du thème de la page

Il en résulterai pour les liens :
- une évaluation thématique des pages faisant des liens entre elle
- donc une création de "galaxies" de sites abordant les même thèmes
- on peut enfin supposer qu'un lien entre 2 pages de la même galaxie a plus de pertinence (de sens) qu'un lien entre sites aux thèmes différents

Ca vous parle ?
Haut
Messages: 2870

Enregistré le: 24 Mai 2004

Message le Sam Fév 19, 2005 20:13

D'ailleurs, l'effet Sandbox pourrait s'expliquer par un filtre sémantique :

Les sites (jeunes ou pas ?) vers lesquels affluent des liens dénués de pertinence thématique seraient filtrés ??

J'avoue que ca correspond assez au profil de mes 2 sites sandboxés...
Haut
Messages: 108

Enregistré le: 11 Juil 2004

Message le Lun Fév 21, 2005 9:59

Pour le mot voiture, sort aussi le mot véhicule ;). Ce qui est marrant ce que pour les mots ayant la même orthographe en français et en anglais, les synonimes anglais sortent sur le serveur FR. Il n'y a qu'un seul lexique :? .
Haut
Messages: 108

Enregistré le: 11 Juil 2004

Message le Lun Fév 21, 2005 10:02

MagicYoyo a écrit:D'ailleurs, l'effet Sandbox pourrait s'expliquer par un filtre sémantique :

Les sites (jeunes ou pas ?) vers lesquels affluent des liens dénués de pertinence thématique seraient filtrés ??

J'avoue que ca correspond assez au profil de mes 2 sites sandboxés...

Je pense que ça n'a pas trop de rapport. Par contre dans la mesure où Google établit facilement la thématique d'un site, la sévérité pour sur-optimisation sur un seul mot-clé doit être bien plus grande.
Haut
Messages: 22758

Enregistré le: 19 Avr 2002

Message le Lun Fév 21, 2005 10:21

dièse a écrit:Pour le mot voiture, sort aussi le mot véhicule ;). Ce qui est marrant ce que pour les mots ayant la même orthographe en français et en anglais, les synonimes anglais sortent sur le serveur FR. Il n'y a qu'un seul lexique :? .
tu as raison dièse, je n'avais pas bien regardé, je m'étais penché surtout sur les titres qui comportent surtout le mot voiture dans mon exemple.
Je retire donc ce que j'ai dit, mais il faudrait creuser un peu plus cette histoire qui me semble très importante dans l'algo de Google aujourd'hui...
Haut
Messages: 2870

Enregistré le: 24 Mai 2004

Message le Lun Fév 21, 2005 10:26

Est-ce qu'il y a déjà eu un test pour vérifier qu'un lien entre 2 pages sémantiquement proches a plus de "poids" qu'un lien entre pages au sens éloignés ?

si non, qu'elle forme pourrait prendre ce test ?
Haut
Messages: 4909

Enregistré le: 17 Aoû 2004

Message le Lun Fév 21, 2005 10:50

WebRankInfo a écrit:Cendrillon, les résultats de ta technique sont peut-être liés aux liens que tu ajoutes entre tes pages

je ne crois pas que cela suffirait, tout le monde fait des liens entre ses pages ...
je pense que le fait qu'un lien soit fait entre deux pages d'une même thèmatique avec un texte de lien lui même dans la même thèmatique renforce les pages appelante et appelée dans la thèmatique concernée, et le lien devrait avoir plus de poids plus de poids ... :wink:
Haut
Messages: 2870

Enregistré le: 24 Mai 2004

Message le Lun Fév 21, 2005 11:09

Comment on pourrait vérifier ça ?
Haut
Messages: 1150

Enregistré le: 12 Jan 2005

Message le Mer Fév 23, 2005 13:47

Ola,
ne pourrait on pas vérifier ça en faisant un triple test, dans les forum test,

Je n'y connais pas grand chose mais si on fait:
une page texte, sans lien,
une autre même texte avec liens thématique,
une dernière même texte autant de liens, mais des liens pas thématique.

Je l'aurai bien fait, mais quand j'ai lu les recomandations du forum test, j'ai eu peur de faire une connerie ...
alors si quelqu'un se le sent et que ça peut faire avancer le schmilblick.

bon ben finalement, je l'ai lancé ce test, ici
Haut
Messages: 768

Enregistré le: 8 Fév 2003

Message le Lun Fév 28, 2005 15:07

Il est pratiquement impossible à mon avis de savoir si Google utilise un algo de type LSI ou n'importe quel autre algo permettant d'avoir un critère basé sur la linguistique statistique et les mesures de similarité.

Mais il est hautement probable que Google utilise effectivement depuis quelque temps un algorithme sophistiqué, plus sophistiqué que les mesures à base de tf*idf.

Quelques tests avec la commande "tilde" démontrent de toute façon que Google a à sa disposition un thesaurus, voire une ontologie complète.

Ce qui me laisse perplexe (et apparemment je ne suis pas le seul) c'est que rien ne permet de penser que les changements de classement apparus récemment aient quelque chose à voir avec cela...

Quant à LSI, c'est un vieux serpent de mer concernant google, qui ressort aussi souvent que l'algo Hilltop...

Au fait, LSI ne permet pas tout seul de déterminer la thématique d'une page...
Haut
Messages: 172

Enregistré le: 28 Juin 2003

Message le Sam Mar 26, 2005 12:10

Existe t-il un site référence en matière de champ sémantique pour trouver des synonymes proches à un mot donnée ? Sinon la solution reste de regarder les sites bien placés sur une requête et de regarder quels mots du titre ou de la description se rapprochent du mot-clef.

Voici un exemple de recherche sémantique sur Google qui met en évidence que même sur les recherches francophones le ~ peut s'appliquer : ~renault
(mais je soupconne fort que ce soit du au fait que la recherche a un sens en anglais et que les mots associés : CLIO et NISSAN sont valables pour les anglo-saxons aussi)
Haut
Messages: 601

Enregistré le: 4 Sep 2004

Message le Sam Mar 26, 2005 15:40

Si quelqu'un connaît un équivalent français à WordNet
Merci
Haut
Messages: 1174

Enregistré le: 15 Mar 2003

Message le Sam Mar 26, 2005 16:01

http://elsap1.unicaen.fr/cgi-bin/cherches.cgi
Haut
Messages: 2133

Enregistré le: 11 Oct 2003

Message le Sam Mar 26, 2005 16:21

rituel a écrit:http://elsap1.unicaen.fr/cgi-bin/cherches.cgi


J'utilise souvent, tres pertinent!
Haut
Messages: 601

Enregistré le: 4 Sep 2004

Message le Sam Mar 26, 2005 16:25

rituel a écrit:http://elsap1.unicaen.fr/cgi-bin/cherches.cgi

Oui merci de me le rappeler et des progrès ont été faits
Mais avez-vous pu downloader quelque chose ?
Haut
Messages: 1174

Enregistré le: 15 Mar 2003

Message le Sam Mar 26, 2005 16:36

Non, par contre si tu essayes de faire ce à quoi je pense, à savoir de la suggestion de mots-clefs dynamiques le tout enrobé d'URL-Rewriting à la Kelkoo, tu trouveras peut être de quoi faire ici.
Haut
Messages: 601

Enregistré le: 4 Sep 2004

Message le Sam Mar 26, 2005 16:55

rituel a écrit:Non, par contre si tu essayes de faire ce à quoi je pense, à savoir de la suggestion de mots-clefs dynamiques le tout enrobé d'URL-Rewriting à la Kelkoo, tu trouveras peut être de quoi faire ici.

Non pas tout à fait. Je réfléchis à la possibilité d'une extension sémantique de requêtes suivie d'une classification des pages retournées.
Haut
Messages: 871

Enregistré le: 21 Juil 2003

Message le Mar Mar 29, 2005 17:43

salut,

je suis en phase de conclusion concernant des test effectués sur la sémantique grâce à un thésaurus.

pour l'instant (je dis bien pour l'instant) tous les tests analysés montrent que google.FR ne réagit pas du tout à l'insertion de clés synonymes, racines et ou similaires

pour effectuer ces tests j'ai crée un thésaurus de quelques termes et fais des pages de liaisons, contenus, densités, ..., égales.
aucune page développée de manière sémantique ne permet à google de lui conférer un sens supplémentaire et de lui faire prendre le dessus par rapport à une page "normale".

conclusion actuelle :
google n'utilise pas de critères sémantiques dans son algo actuel.

ps: je suis entièrement d'accord avec cariboo, les changements actuels n'ont aucun rapport avec des changements d'algo au niveau de la sémantique.
Haut
Messages: 22758

Enregistré le: 19 Avr 2002

Message le Mar Mar 29, 2005 18:15

Merci caro pour ton retour d'expérience très intéressant ;-)
Haut
Messages: 2870

Enregistré le: 24 Mai 2004

Message le Mer Mar 30, 2005 8:29

Bravo et merci de partager ces vérifications empiriques qui demandent beaucoup de travail.
Haut
Messages: 341

Enregistré le: 22 Oct 2004

Message le Lun Avr 25, 2005 13:51

MagicYoyo a écrit:D'ailleurs, l'effet Sandbox pourrait s'expliquer par un filtre sémantique :

Les sites (jeunes ou pas ?) vers lesquels affluent des liens dénués de pertinence thématique seraient filtrés ??

J'avoue que ca correspond assez au profil de mes 2 sites sandboxés...


Je ne pense pas car on est normalement pas responsable des bls vers notre site. Si ton site est bien construit et utile il obtiendra naturellement des bls de personnes qui le jugent intéressant, sans pour autant que le site sur lequel ils placent ce bl soit du même thème que le tien.
Haut
Messages: 2870

Enregistré le: 24 Mai 2004

Message le Lun Avr 25, 2005 16:37

Ouep, je me range à ton avis (le message que tu cites date un peu).

Il y a bien une difficulté à positionner un site jeune.
Et il y a bien des pénalités pour les campagnes de création de backilinks artificiels... ce qui renforce la difficulté à référencer un site jeune.
Haut
Messages: 7

Enregistré le: 7 Sep 2006

Message le Sam Sep 30, 2006 13:39

Oui google fait de l'analyse semantique mais à un niveau tres superficiel.

J ai realise des test sur des sites multilangues et une conclusion parait claire: les particules ont une importance majeure.
Par exemple des particules comme : Vom, Von , Der, Aus qui sont allemandes feront que votre page sera reference dans la langue allemande quelquesoit le langage declaré dans la page.

J'imagine que leur algorithmes travaille sur la proportion de ses particules par rapport au nombre total de mots dans la page. Enfin ca n'est qu'une hypothèse.

Google n'ira pas jusqu'a vérifier le sens d'une phrase, ni la disposition des mots dans celle ci.
Haut
Messages: 189

Enregistré le: 6 Juil 2006

Message le Mar Oct 10, 2006 11:05

Il existe aussi l'atlas sémantique développé par le CNRS ici : http://dico.isc.cnrs.fr

Je l'utilise très régulièrement et il donne bien l'idée de ce que l'on peut attendre des notions de "sens" et "concept".
Haut