[article] Comment maîtriser le clustering dans Google

Consultez la formation au référencement naturel Google de WebRankInfo / Ranking Metrics

Alexis-Berger
Nouveau WRInaute
 
Messages: 7
Inscription: Ven Oct 22, 2004 21:29

Message le Dim Oct 24, 2004 14:34

cariboo a écrit:Je suis vraiment étonné que des gens aussi connaisseurs des moteurs semblent ne découvrir ce truc que maintenant.


Puisque je ne peux rien vous apprendre, je ne répondrais pas à votre post n'ayant sans doute pour vous aucun interet.
Je laisse les gens se fairent leur propre opinion.

Cendrillon, en ce qui concerne la thématique, elle est utilisée par Google et de nombreux articles en parlent (surtout sur des sites américains).

squawk
WRInaute accro
WRInaute accro
 
Messages: 5985
Inscription: Lun Mar 22, 2004 19:45

Message le Dim Oct 24, 2004 14:58

Dans mon souvenir ca existe depuis très longtemps.
Par contre je ne comprend pas pourquoi autant de membre présent ici semblent obsédés par la triche
Vous bénéficiez d'un double résultat pour votre site alors est-ce que vous vous conssidérez comme un tricheur ?


Non mais j'ai toujours pas vu l'interet pour celui qui fait une recherche... En fait je pense que pratiquement personne ne remarque que le paragraphe est décalé vers la droite et peu d'internaute regarde les urls ce qui fait que ceux qui font une recherche vont regarder les 2 pages et vont retomber sur le même site et voir la même page, c'est donc du temps perdu...
Sinon pour la triche, ben c'est une réalité que n'importe quel référenceur ne peut ignorer... non ? :wink:

Heu sinon sur MSN c'est marrant il affiche les 2 même pages dans le clustering :?:

http://techpreview.search.msn.fr/result ... configs+pc

phil54
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 230
Inscription: Mar Déc 24, 2002 17:44

Message le Dim Oct 24, 2004 14:59

Oui la question n'est pas de savoir si on ne découvre les doubles résultats que maintenant, cela fait bien longtemps qu'on les remarque.

L'intérêt de l'article d'Alexis est d'en expliquer le mécanisme, et ça, jusqu'à présent, personne ne l'avait encore fait ...

Merci pour ta contribution :wink:


a.nonyme4ever
WRInaute passionné
WRInaute passionné
 
Messages: 538
Inscription: Ven Fév 20, 2004 16:51

Message le Dim Oct 24, 2004 15:16

Oui, en fait je ne m'étais jamais vraiment demandé comment cela fonctionnait et pourquoi cela fonctionnait comme ça.

Et c'est un bon début de réponse, encore merci pour cet article fort interessant!
J'ai hate de lire les suivants ;-)


cariboo
WRInaute passionné
WRInaute passionné
 
Messages: 769
Inscription: Sam Fév 08, 2003 11:09

Message le Dim Oct 24, 2004 15:24

Désolé si tu as mal pris cette remarque Alexis, cet étonnement ne s'adressait pas à toi.

Ton article et les réactions qui ont suivi démontrent qu'il était parfaitement utile de rappeler les principes de ce clustering, et même si je relève un point précis que j'estime erroné, je trouve le reste tout à fait utile et intéressant.

Sur la thématique : certes, plusieurs hypothèses circulent :
- l'utilisation du localrank et de hilltop
- l'utilisation du pagerank thématique, du blockrank thématique (présent dans l'index)
- l'utilisation de critères statistiques linguistiques (classiques, et probablement présent)
- l'utilisation de l'anchor text pour les outbound links (avec ou sans pondération par PR thématique)
- l'utilisation du theme clustering
- l'utilisation des c-index avec la methode d'abstraction en arbres hiérarchiques
- ...
J'en passe...

Quoi qu'il en soit, tout ceci n'est utilisé que comme l'un des nombreux critères utilisés par google pour classer les résultats dans les SERPS.

Comme tu l'as souligné, cette fonctionnalité est ancienne. En fait elle est là depuis la première version grand public de Google... Et à cette époque comme maintenant, les seuls critères pour regrouper l'url #3 avec la #7, c'est le fait d'être dans le même domaine/sous-domaine.

La thématique, c'est une autre histoire. Et il ne faut pas confondre "domain clustering" et "clustering thematique".

Le clustering thématique, c'est pour demain.

Pour info, Google a annoncé à la dernière Web 2 Conference (par la bouche de Peter Norwig) qu'ils expérimentaient depuis six mois une technique de clustering sémantique qu'ils appellent "named entities abstraction" (abstraction d'entités nommées, c'est à dire des noms, raisons sociales, téléphones, url, adresses mail etc...)

http://www.eweek.com/article2/0,1759,1668357,00.asp

Cette technique tel que Norvig la décrit ressemble à plusieurs méthodes déjà expérimentées par ailleurs. Elle permet un "tagage sémantique" automatique des entités nommées, qui, une fois couplée à une ontologie, permet de savoir exactement de quelle entité nommée on parle, et de renvoyer la bonne page en fonction du contexte...

Sauf qu'en général, on travaille par extraction des entités nommées. Travailler par abstraction est beaucoup, beaucoup plus difficile.


GAMING ZONE
WRInaute passionné
WRInaute passionné
 
Messages: 533
Inscription: Ven Aoû 13, 2004 20:06

Message le Dim Oct 24, 2004 17:42

Oulala ca remut !
Bon pour les pro du ref, personne a remarquer que lorsqu'il y a cet effet clustering, et bien il y a une autre option qu' apparait, et qui invite l'utilisateur a en voir plus :
[ Autres résultats, domaine .......... ]
Cela permet de faire plus de recherche ;)


Cendrillon
WRInaute accro
WRInaute accro
 
Messages: 4747
Inscription: Mar Aoû 17, 2004 15:41

Message le Dim Oct 24, 2004 18:30

Alexis-Berger a écrit:Cendrillon, en ce qui concerne la thématique, elle est utilisée par Google et de nombreux articles en parlent (surtout sur des sites américains).

je n'en doute pas, un article paru sur influx (http://influx.joueb.com/news/92.shtm) le Lundi 25 Août 2003 :

Vivisimo, considéré par beaucoup comme l'un des meilleurs métamoteurs (1) propose depuis quelques jours de nouvelles fonctionnalités intéressantes :
- le lien "frame" qui offre de nouvelles possibilités de navigation. Ainsi, sur votre page de résultats, un clique sur "frame" vous permet notamment de rajouter un site à vos "bookmarks", d' accéder à sa version "Cache" dans Google, de naviguer sur les autres sites de la page de résultats…
- l'atout majeur de Vivisimo c'est le "clustering" ,c'est-à-dire le regroupement des résultats dans des dossiers thématiques. Ainsi une requête sur "intelligence" regroupera vos résultats dans les dossiers "artificielle", "SETI", "Economique" , "personnalité",..Bref autant de catégories qui vous permettent d'affiner votre requête initiale. Sur Vivisimo, la page est divisé en 2 grandes zones :à gauche les dossiers, à droite votre page de résultats.
Précisément, une nouvelle fonction, "Find in clusters" permet de rechercher au sein de ces "clusters/groupes". Les termes de cette recherche seront mis en évidence (par surlignage) au sein des dossiers thématiques mais également au sein de la page de résultats.
- le lien "Show in clusters" : permet de situer chaque résultat de recherche au sein de la hiérarchie des dossiers thématiques de la colonne de gauche. Pratique pour connaître l'univers contextuel d'un résultat et trouver facilement des sites appartenant à la même thématique.
- le lien "détails" : permet d'accéder au processus détaillé de la recherche effectuée par le métamoteur : moteurs utilisé, nombre de résultats rapatriés pour chacun…
Et toujours : Le module de recherche avancée et la fonction Prévisualisation .

Raul Valdes-Perez, co-fondateur, compare le web à une librairie :"Avec un moteur traditionnel, les livres sont empilés en vrac sur le sol. Avec Vivisimo, les livres sont soigneusement rangés sur une étagère" explique-t-il.
"Les développeurs de Vivisimo ont définit 4 critères pour créer les "clusters" : des titres concis, précis, distinctifs, et "humains", c'est-à-dire que l'on ne doit pas penser qu'ils ont été générés par une machine. En créant les catégories, les algorithmes de Vivisimo tentent de faire 2 choses : regarder le titre et le contenu d'un site web et ensuite utiliser une base de données de synonymes et d'abréviations pour ranger les sites dans la catégorie la plus appropriée".
Vivisimo est une société de Pittsburgh, Pennsylvanie, issue d'un centre de recherhe du département Informatique de l'Université de Carnegie Mellon (2). C'est là que Raul Valdes-Perez a développé les algorithmes de Vivisimo avec Jerome Pesenti et Chris Palmer.
Aujourd'hui, Vivisimo gagne de l'argent en vendant sous licence ses techniques de clustering pour des sites ou bases de données de grands organismes. Parmi eux : la NASA ou la Stanford University's HighWire Press qui édite notamment le Journal of the American Medical Association. Ca va plutôt bien pour Vivisimo puisque le moteur a annoncé le 12 juin qu'il avait reçu 350 000 $ de récompense de la National Science Foundation amenant à 1 millions de $ le montant total des récompense obtenues par l'équipe de Pittsburgh.
En outre, les analystes prévoient que Google comme d'autres moteurs devront utiliser la technologie de "clustering" pour rester concurrentiels…
(1) élu meilleur métamoteur 2002 par Searchenginewatch.
(2) Le moteur Lycos a également été développé à Carnegie Mellon par Michael Mauldin


bien sûr cela ne prouve pas que c'est déjà utilisé dans le clustering Google ... mais si Vivissimo le propose sur son métamoteur depuis 2003, on peut présumer que le n°1 mondial de moteurs de recherche a un peu avancé sur le sujet ... :wink:


ams51
WRInaute impliqué
WRInaute impliqué
 
Messages: 288
Inscription: Lun Mar 22, 2004 14:58

Message le Mar Oct 26, 2004 12:54



herveG
Modérateur
Modérateur
 
Messages: 9845
Inscription: Mer Mar 05, 2003 11:33

Message le Mar Oct 26, 2004 13:18

une autre :wink:

ca fait longtemps que j´avais repéré ce phénomène et je suis également étonné de voir que ceci semble etre une découverte pour certains. mais l´article est très bon et explique parfaitement le phénomène.

je ne sais pas si il faut se casser la tete sur les raisons du pourquoi du comment. Mon avis est que google estime que si une premiere page est pertinente pour arriver en 1ere place et qu une autre page du meme site est pertinent pour arriver en 8eme place par exemple, alors ces deux pages "ensemble" méritent au moins la meilleure place des deux (la 1ere donc).

la raison "esthétique" est peutetre un peu faible mais il peut s´agir d´une simple décision de regrouper deux page d´un meme NDD tout simplement et sans arriere pensée de thématique and Co.


WebRankInfo
Administrateur du site
Administrateur du site
 
Messages: 15905
Inscription: Ven Avr 19, 2002 19:51

Message le Mar Oct 26, 2004 14:29

herveG a écrit:je ne sais pas si il faut se casser la tete sur les raisons du pourquoi du comment. Mon avis est que google estime que si une premiere page est pertinente pour arriver en 1ere place et qu une autre page du meme site est pertinent pour arriver en 8eme place par exemple, alors ces deux pages "ensemble" méritent au moins la meilleure place des deux (la 1ere donc).

Attention tout de même car ce n'est pas systématique. Parfois Google ne juge pas utile de rassembler les deux résultats issus du même sous-domaine... L'intérêt de cette analyse est donc de déterminer quand est-ce que Google rassemble les deux résultats.


herveG
Modérateur
Modérateur
 
Messages: 9845
Inscription: Mer Mar 05, 2003 11:33

Message le Mar Oct 26, 2004 16:42

Tu veux dire qu il peut arriver que deux résultats d´un meme NDD ne soient pas regroupés bien qu´étant sur une meme page de résultats ?? j ai déja vu ca sur yahoo mais encore jamais sur google....! Ca m´intéresse !!


WebRankInfo
Administrateur du site
Administrateur du site
 
Messages: 15905
Inscription: Ven Avr 19, 2002 19:51

Message le Mar Oct 26, 2004 16:45

non, pas sur la meme page de résultats, mais pas loin

je veux simplement rappeler que ce n'est pas systématique le regroupement de deux pages d'un meme site

Generations
Nouveau WRInaute
 
Messages: 2
Inscription: Mar Oct 26, 2004 16:38

Message le Mar Oct 26, 2004 17:00

squawk a écrit:
Non mais j'ai toujours pas vu l'interet pour celui qui fait une recherche... En fait je pense que pratiquement personne ne remarque que le paragraphe est décalé vers la droite et peu d'internaute regarde les urls ce qui fait que ceux qui font une recherche vont regarder les 2 pages et vont retomber sur le même site et voir la même page, c'est donc du temps perdu...


A ma connaissance le clustering ne permet pas de faire apparaitre deux fois la même page. Cette redondance n'apparaissant qu'à des requêtes sur des mots clés qui ne sont pas hyper convoités, il arrive souvent qu'un seul site et donc les contenus d'au moins deux de ses pages soient plus pertinents que l'ensembles des autres liens proposés. Je trouve que cela peut avoir une pertinence dans ce cas.

Exemple : "Gilles de Gouberville" gentilhomme Normand de la fin du XV siècle. Le seul site francophone qui traite sérieusement du sujet (par ailleurs fort intéressant ...) mérite largement deux liens en première page de Google .
Paradoxalement, cela peut être une prime à la production de contenus pertinents ...


Suede
WRInaute accro
WRInaute accro
 
Messages: 3721
Inscription: Ven Oct 04, 2002 11:22

Message le Mar Oct 26, 2004 17:40

WebRankInfo a écrit:Effectivement...

Pour éviter toute dérive vers des critiques de sites ou d'entreprises, je remercie tout le monde de se limiter à discuter le fond et non la forme.

Quelqu'un avait-il déjà vu cela ?
Quelqu'un avait-il constaté comme moi ceci dans l'API ?


Oui, à la fois pour mon site et d'autres. Et je trouve cela bien pratique. Ca evite d'avoir le meme site plusieurs fois dans la page et accélère le tri.

Pour compléter, j'en ai souffert quand j'etais en gratuit.

François

bad jack
Nouveau WRInaute
 
Messages: 3
Inscription: Ven Juin 27, 2003 6:41

Message le Mar Oct 26, 2004 18:13

Bonsoir,

un grand intérêt pour cet article d'Alexis-berger.

Qu'appelle-t-on exactement le "deep" dans la phrase : "Comme le contenu de ce site est très intéressant d'autres webmasters vont faire des liens en "deep" vers les pages de ce site."
J'ai cherché dans le dico du net, mais à part le "deep crawl" de google, pas d'autre explication. Sachant que deep signifie profond...
Merci de l'éclaicissement

[article] Comment maîtriser le clustering dans Google [article] Comment maîtriser le clustering dans Google

Formation recommandée sur ce thème :

Formation Référencement naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.

Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.

Lectures recommandées sur ce thème :



Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités