Consultez la formation sur l'écriture web et référencement de WebRankInfo / Ranking Metrics

Messages: 23108

Enregistré le: 19 Avr 2002

Message le Mar Sep 07, 2010 16:11

D'après une étude de SEOmoz, il est possible que Google utilise dans son algo une analyse du type de LDA (Latent Dirichlet Allocation). Je vous suggère de lire son article et de tester son outil afin de pouvoir en débattre ici.

En tout cas cela risque de renforcer l'intérêt pour ce qu'on appelle parfois le référencement éditorial, ou disons l'optimisation du référencement naturel par un bon rédactionnel.

PS: pour les "nuls", une explication en français
Haut
10 Réponses
Messages: 82

Enregistré le: 22 Fév 2006

Message le Mar Sep 07, 2010 21:41

Bonjour Olivier,

Je compte réagir à votre message concernant le LDA. Encore est-il normal que Google recherche des mots clés en rapport avec le mot que vous souhaitez positionner afin de vérifier si le sens est le bon. Ainsi, si votre site parle de cheval, le fait d'utiliser les mots "chevaux" ou encore "écurie" va rassurer le moteur de recherche dans le sens de vos phrases voir de votre site.

Ainsi on peut distinguer plusieurs formes du LDA : sur une phrase (recherche de mots coïncidents) ou encore à travers un ou plusieurs paragraphes.

Cette information n'est pas nouvelle, mais la révélation par SEOmoz a fait grand bruit !

Certains qui utilisent l'outil gratuit Gnoztik s'en sont déjà rendus compte. Le logiciel propose en effet dans ses rapports de rajouter des mots clés non présents sur votre site et qui pourraient vous permettre d'augmenter vos positions sur le mot clé voulu, ce grâce à une analyse des autres sites.

J'utilise en partie cette technique pour référencer mes sites internet depuis un certain temps maintenant, et c'est vrai que cela marche bien, mais il ne faut pas oublier le reste, c'est à dire du bon contenu, des liens et de la popularité. Peut-être en parliez-vous déjà dans vos formations à l'écriture web ?
Haut
Messages: 23108

Enregistré le: 19 Avr 2002

Message le Mer Sep 08, 2010 9:36

euh oui en effet ça fait pas mal d'années qu'on explique qu'il faut ajouter des mots "connexes" en rapport avec le mot-clé principal. J'en ai parlé par exemple avec la LSI il y a 5 ANS :-) Et effectivement on l'explique aussi en formation à l'écriture web.

Mais là c'est plus crédible je pense, car la LSI ne me semble pas "scalable", adaptable aux volumes traités par Google. Cela dit j'aimerais bien l'avis de spécialistes de LDA.
Haut
Messages: 2877

Enregistré le: 24 Mai 2004

Message le Mer Sep 08, 2010 11:23

WebRankInfo a écrit:Mais là c'est plus crédible je pense, car la LSI ne me semble pas "scalable", adaptable aux volumes traités par Google. Cela dit j'aimerais bien l'avis de spécialistes de LDA.

Complètement d'accord avec ça.
J'ai pas encore approfondi la mécanique du test de SEOmoz, mais c'est encourageant.
Haut
Messages: 40

Enregistré le: 15 Nov 2007

Message le Mer Sep 08, 2010 17:04

WebRankInfo a écrit:euh oui en effet ça fait pas mal d'années qu'on explique qu'il faut ajouter des mots "connexes" en rapport avec le mot-clé principal.


Ce n'est effectivement pas vraiment une surprise.
Haut
Messages: 82

Enregistré le: 22 Fév 2006

Message le Jeu Sep 09, 2010 7:49

Par contre, j'ai envie d'aller plus loin et de vous demander si on ne peut pas appliquer ce principe aux backlinks ?

Est-ce que en gros par exemple si on veut se placer sur "cheval", des backlinks avec le mot "chevaux" va-t-il nous aider ? Je pense que cela joue un peu, après je n'ai pas fait de test pour le démontrer.
Haut
Messages: 3306

Enregistré le: 2 Juil 2008

Message le Jeu Sep 09, 2010 8:11

Est-ce qu'il y a un risque de sur-optimisation sémantique ?
S'il est normal d'utiliser des termes de même environnement fréquemment dans une page, il apparaît aussi des mots sans aucun rapport avec le sujet quand on écrit sans arrière-pensée SEO. Et on n'écrit jamais avec tous les mots liés au sujet, sauf si un logiciel nous incite à le faire. Est-ce que quelqu'un a constaté que la présence de ce type de hors-sujet ou l'absence de quelques mots importants liés au sujet pourraient rassurer Google sur les intentions de l'auteur ?
Haut
Messages: 22678

Enregistré le: 8 Aoû 2004

Message le Jeu Sep 09, 2010 11:18

personnellement, je pense qu'il doit y avoir une liaison avec l'énorme base de livres que gg a scanné. Même si on n'écrit pas de la même façon en ligne que IRL (il faut que les contenus soient plus concis, plus percutants, rien que pour accaparer l'attention de l'internaute, sans même penser SEO), mais il a ainsi de grosses bases de documents dans pas mal de domaines. Et s'ils ont étudié la dispersion de la représentativité des mots employés IRL et comparé sur cette même dispersion sur internet, ils doivent pouvoir en établir des correspondances.
Haut
Messages: 23108

Enregistré le: 19 Avr 2002

Message le Mar Sep 14, 2010 9:00

Pour ceux que ça intéresse, allez lire cet article de Sylvain Peyronnet
Haut
Messages: 343

Enregistré le: 17 Oct 2008

Message le Mar Sep 14, 2010 16:39

J'ai lu les 2/3 de l'article tout de suite et il y a une question qui me vient :
La LDA permet de séparer des thématiques sur les bases de probabilités. Ok, mais sur un texte typique de spam avancé, avec une syntaxe correcte mais aucun sens, est-ce que les outils sortent :
- Aucune thématique ?
- Plusieurs thématiques non reliées ?

Si l'on ressort plusieurs thématiques non reliées entre elles, considère-t-on toujours que l'on est en présence de spam ?
Enfin, même là, je sais que des générateur produisent du texte dégueulasse dont on peut retirer, malheureusement, une thématique.

En bref, je suis pas sûr de la valeur et de l'utilisation qu'on peut attribuer au traitement de documents avec cette méthode (si utilisée seule).
Haut
Messages: 320

Enregistré le: 10 Juil 2009

Message le Mar Sep 14, 2010 19:33

Enfin, même là, je sais que des générateur produisent du texte dégueulasse dont on peut retirer, malheureusement, une thématique.


Un générateur markovien de base génère des textes qui sont tous dans la même thématique si le corpus d'apprentissage ne contient que des textes d'une même thématique.
Globalement, on ne peut pas vraiment utiliser la LDA en même temps pour detecter le spam et pour inférer les topics. D'autant plus que la première tâche (detecter le spam) n'a pas de sens en tant que telle car il y a plusieurs types de spam qui nécessitent des méthodes tout à fait différentes de detection. Si on veut detecter des textes générés aléatoirement, il y a des méthodes de pré-filtrages très efficaces et beaucoup plus simple à utiliser que la LDA (batterie de filtres statistiques par exemple).

J'édite pour donner mon sentiment sur la bonne manière de faire un moteur : à mon sens la tâche de détection du spam doit se faire à l'indexation des pages. Lors du calcul de popularité/similarité on peut faire du déclassement de spam avec des méthodes adaptées, mais sans le detecter (oui, c'est possible).
Haut

Formation recommandée sur ce thème :

Formation Rédaction web et référencement : découvrez les techniques d'écriture web efficaces à la fois pour les internautes et pour le référencement. Formation animée par O. Duffez et F. Facériès, spécialistes en référencement naturel Google.

Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.