[article] Comment maîtriser le clustering dans Google

Consultez la formation au REFERENCEMENT naturel Google de WebRankInfo / Ranking Metrics

Alexis-Berger
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 7
Enregistré le: 22 Oct 2004

Message le Dim Oct 24, 2004 14:34

cariboo a écrit:Je suis vraiment étonné que des gens aussi connaisseurs des moteurs semblent ne découvrir ce truc que maintenant.


Puisque je ne peux rien vous apprendre, je ne répondrais pas à votre post n'ayant sans doute pour vous aucun interet.
Je laisse les gens se fairent leur propre opinion.

Cendrillon, en ce qui concerne la thématique, elle est utilisée par Google et de nombreux articles en parlent (surtout sur des sites américains).

squawk
WRInaute accro
WRInaute accro
 
Messages: 5985
Enregistré le: 22 Mar 2004

Message le Dim Oct 24, 2004 14:58

Dans mon souvenir ca existe depuis très longtemps.
Par contre je ne comprend pas pourquoi autant de membre présent ici semblent obsédés par la triche
Vous bénéficiez d'un double résultat pour votre site alors est-ce que vous vous conssidérez comme un tricheur ?


Non mais j'ai toujours pas vu l'interet pour celui qui fait une recherche... En fait je pense que pratiquement personne ne remarque que le paragraphe est décalé vers la droite et peu d'internaute regarde les urls ce qui fait que ceux qui font une recherche vont regarder les 2 pages et vont retomber sur le même site et voir la même page, c'est donc du temps perdu...
Sinon pour la triche, ben c'est une réalité que n'importe quel référenceur ne peut ignorer... non ? :wink:

Heu sinon sur MSN c'est marrant il affiche les 2 même pages dans le clustering :?:

http://techpreview.search.msn.fr/result ... configs+pc

phil54
WRInaute discret
WRInaute discret
 
Messages: 230
Enregistré le: 24 Déc 2002

Message le Dim Oct 24, 2004 14:59

Oui la question n'est pas de savoir si on ne découvre les doubles résultats que maintenant, cela fait bien longtemps qu'on les remarque.

L'intérêt de l'article d'Alexis est d'en expliquer le mécanisme, et ça, jusqu'à présent, personne ne l'avait encore fait ...

Merci pour ta contribution :wink:

a.nonyme4ever
WRInaute impliqué
WRInaute impliqué
 
Messages: 538
Enregistré le: 20 Fév 2004

Message le Dim Oct 24, 2004 15:16

Oui, en fait je ne m'étais jamais vraiment demandé comment cela fonctionnait et pourquoi cela fonctionnait comme ça.

Et c'est un bon début de réponse, encore merci pour cet article fort interessant!
J'ai hate de lire les suivants ;-)

cariboo
WRInaute impliqué
WRInaute impliqué
 
Messages: 769
Enregistré le: 8 Fév 2003

Message le Dim Oct 24, 2004 15:24

Désolé si tu as mal pris cette remarque Alexis, cet étonnement ne s'adressait pas à toi.

Ton article et les réactions qui ont suivi démontrent qu'il était parfaitement utile de rappeler les principes de ce clustering, et même si je relève un point précis que j'estime erroné, je trouve le reste tout à fait utile et intéressant.

Sur la thématique : certes, plusieurs hypothèses circulent :
- l'utilisation du localrank et de hilltop
- l'utilisation du pagerank thématique, du blockrank thématique (présent dans l'index)
- l'utilisation de critères statistiques linguistiques (classiques, et probablement présent)
- l'utilisation de l'anchor text pour les outbound links (avec ou sans pondération par PR thématique)
- l'utilisation du theme clustering
- l'utilisation des c-index avec la methode d'abstraction en arbres hiérarchiques
- ...
J'en passe...

Quoi qu'il en soit, tout ceci n'est utilisé que comme l'un des nombreux critères utilisés par google pour classer les résultats dans les SERPS.

Comme tu l'as souligné, cette fonctionnalité est ancienne. En fait elle est là depuis la première version grand public de Google... Et à cette époque comme maintenant, les seuls critères pour regrouper l'url #3 avec la #7, c'est le fait d'être dans le même domaine/sous-domaine.

La thématique, c'est une autre histoire. Et il ne faut pas confondre "domain clustering" et "clustering thematique".

Le clustering thématique, c'est pour demain.

Pour info, Google a annoncé à la dernière Web 2 Conference (par la bouche de Peter Norwig) qu'ils expérimentaient depuis six mois une technique de clustering sémantique qu'ils appellent "named entities abstraction" (abstraction d'entités nommées, c'est à dire des noms, raisons sociales, téléphones, url, adresses mail etc...)

http://www.eweek.com/article2/0,1759,1668357,00.asp

Cette technique tel que Norvig la décrit ressemble à plusieurs méthodes déjà expérimentées par ailleurs. Elle permet un "tagage sémantique" automatique des entités nommées, qui, une fois couplée à une ontologie, permet de savoir exactement de quelle entité nommée on parle, et de renvoyer la bonne page en fonction du contexte...

Sauf qu'en général, on travaille par extraction des entités nommées. Travailler par abstraction est beaucoup, beaucoup plus difficile.

GAMING ZONE
WRInaute impliqué
WRInaute impliqué
 
Messages: 589
Enregistré le: 13 Aoû 2004

Message le Dim Oct 24, 2004 17:42

Oulala ca remut !
Bon pour les pro du ref, personne a remarquer que lorsqu'il y a cet effet clustering, et bien il y a une autre option qu' apparait, et qui invite l'utilisateur a en voir plus :
[ Autres résultats, domaine .......... ]
Cela permet de faire plus de recherche ;)


Cendrillon
WRInaute accro
WRInaute accro
 
Messages: 4940
Enregistré le: 17 Aoû 2004

Message le Dim Oct 24, 2004 18:30

Alexis-Berger a écrit:Cendrillon, en ce qui concerne la thématique, elle est utilisée par Google et de nombreux articles en parlent (surtout sur des sites américains).

je n'en doute pas, un article paru sur influx (http://influx.joueb.com/news/92.shtm) le Lundi 25 Août 2003 :

Vivisimo, considéré par beaucoup comme l'un des meilleurs métamoteurs (1) propose depuis quelques jours de nouvelles fonctionnalités intéressantes :
- le lien "frame" qui offre de nouvelles possibilités de navigation. Ainsi, sur votre page de résultats, un clique sur "frame" vous permet notamment de rajouter un site à vos "bookmarks", d' accéder à sa version "Cache" dans Google, de naviguer sur les autres sites de la page de résultats…
- l'atout majeur de Vivisimo c'est le "clustering" ,c'est-à-dire le regroupement des résultats dans des dossiers thématiques. Ainsi une requête sur "intelligence" regroupera vos résultats dans les dossiers "artificielle", "SETI", "Economique" , "personnalité",..Bref autant de catégories qui vous permettent d'affiner votre requête initiale. Sur Vivisimo, la page est divisé en 2 grandes zones :à gauche les dossiers, à droite votre page de résultats.
Précisément, une nouvelle fonction, "Find in clusters" permet de rechercher au sein de ces "clusters/groupes". Les termes de cette recherche seront mis en évidence (par surlignage) au sein des dossiers thématiques mais également au sein de la page de résultats.
- le lien "Show in clusters" : permet de situer chaque résultat de recherche au sein de la hiérarchie des dossiers thématiques de la colonne de gauche. Pratique pour connaître l'univers contextuel d'un résultat et trouver facilement des sites appartenant à la même thématique.
- le lien "détails" : permet d'accéder au processus détaillé de la recherche effectuée par le métamoteur : moteurs utilisé, nombre de résultats rapatriés pour chacun…
Et toujours : Le module de recherche avancée et la fonction Prévisualisation .

Raul Valdes-Perez, co-fondateur, compare le web à une librairie :"Avec un moteur traditionnel, les livres sont empilés en vrac sur le sol. Avec Vivisimo, les livres sont soigneusement rangés sur une étagère" explique-t-il.
"Les développeurs de Vivisimo ont définit 4 critères pour créer les "clusters" : des titres concis, précis, distinctifs, et "humains", c'est-à-dire que l'on ne doit pas penser qu'ils ont été générés par une machine. En créant les catégories, les algorithmes de Vivisimo tentent de faire 2 choses : regarder le titre et le contenu d'un site web et ensuite utiliser une base de données de synonymes et d'abréviations pour ranger les sites dans la catégorie la plus appropriée".
Vivisimo est une société de Pittsburgh, Pennsylvanie, issue d'un centre de recherhe du département Informatique de l'Université de Carnegie Mellon (2). C'est là que Raul Valdes-Perez a développé les algorithmes de Vivisimo avec Jerome Pesenti et Chris Palmer.
Aujourd'hui, Vivisimo gagne de l'argent en vendant sous licence ses techniques de clustering pour des sites ou bases de données de grands organismes. Parmi eux : la NASA ou la Stanford University's HighWire Press qui édite notamment le Journal of the American Medical Association. Ca va plutôt bien pour Vivisimo puisque le moteur a annoncé le 12 juin qu'il avait reçu 350 000 $ de récompense de la National Science Foundation amenant à 1 millions de $ le montant total des récompense obtenues par l'équipe de Pittsburgh.
En outre, les analystes prévoient que Google comme d'autres moteurs devront utiliser la technologie de "clustering" pour rester concurrentiels…
(1) élu meilleur métamoteur 2002 par Searchenginewatch.
(2) Le moteur Lycos a également été développé à Carnegie Mellon par Michael Mauldin


bien sûr cela ne prouve pas que c'est déjà utilisé dans le clustering Google ... mais si Vivissimo le propose sur son métamoteur depuis 2003, on peut présumer que le n°1 mondial de moteurs de recherche a un peu avancé sur le sujet ... :wink:

ams51
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 289
Enregistré le: 22 Mar 2004

Message le Mar Oct 26, 2004 12:54



herveG
Modérateur
Modérateur
 
Messages: 9959
Enregistré le: 5 Mar 2003

Message le Mar Oct 26, 2004 13:18

une autre :wink:

ca fait longtemps que j´avais repéré ce phénomène et je suis également étonné de voir que ceci semble etre une découverte pour certains. mais l´article est très bon et explique parfaitement le phénomène.

je ne sais pas si il faut se casser la tete sur les raisons du pourquoi du comment. Mon avis est que google estime que si une premiere page est pertinente pour arriver en 1ere place et qu une autre page du meme site est pertinent pour arriver en 8eme place par exemple, alors ces deux pages "ensemble" méritent au moins la meilleure place des deux (la 1ere donc).

la raison "esthétique" est peutetre un peu faible mais il peut s´agir d´une simple décision de regrouper deux page d´un meme NDD tout simplement et sans arriere pensée de thématique and Co.


WebRankInfo
Administrateur du site
Administrateur du site
 
Messages: 22966
Enregistré le: 19 Avr 2002

Message le Mar Oct 26, 2004 14:29

herveG a écrit:je ne sais pas si il faut se casser la tete sur les raisons du pourquoi du comment. Mon avis est que google estime que si une premiere page est pertinente pour arriver en 1ere place et qu une autre page du meme site est pertinent pour arriver en 8eme place par exemple, alors ces deux pages "ensemble" méritent au moins la meilleure place des deux (la 1ere donc).

Attention tout de même car ce n'est pas systématique. Parfois Google ne juge pas utile de rassembler les deux résultats issus du même sous-domaine... L'intérêt de cette analyse est donc de déterminer quand est-ce que Google rassemble les deux résultats.


herveG
Modérateur
Modérateur
 
Messages: 9959
Enregistré le: 5 Mar 2003

Message le Mar Oct 26, 2004 16:42

Tu veux dire qu il peut arriver que deux résultats d´un meme NDD ne soient pas regroupés bien qu´étant sur une meme page de résultats ?? j ai déja vu ca sur yahoo mais encore jamais sur google....! Ca m´intéresse !!


WebRankInfo
Administrateur du site
Administrateur du site
 
Messages: 22966
Enregistré le: 19 Avr 2002

Message le Mar Oct 26, 2004 16:45

non, pas sur la meme page de résultats, mais pas loin

je veux simplement rappeler que ce n'est pas systématique le regroupement de deux pages d'un meme site

Generations
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 2
Enregistré le: 26 Oct 2004

Message le Mar Oct 26, 2004 17:00

squawk a écrit:
Non mais j'ai toujours pas vu l'interet pour celui qui fait une recherche... En fait je pense que pratiquement personne ne remarque que le paragraphe est décalé vers la droite et peu d'internaute regarde les urls ce qui fait que ceux qui font une recherche vont regarder les 2 pages et vont retomber sur le même site et voir la même page, c'est donc du temps perdu...


A ma connaissance le clustering ne permet pas de faire apparaitre deux fois la même page. Cette redondance n'apparaissant qu'à des requêtes sur des mots clés qui ne sont pas hyper convoités, il arrive souvent qu'un seul site et donc les contenus d'au moins deux de ses pages soient plus pertinents que l'ensembles des autres liens proposés. Je trouve que cela peut avoir une pertinence dans ce cas.

Exemple : "Gilles de Gouberville" gentilhomme Normand de la fin du XV siècle. Le seul site francophone qui traite sérieusement du sujet (par ailleurs fort intéressant ...) mérite largement deux liens en première page de Google .
Paradoxalement, cela peut être une prime à la production de contenus pertinents ...


Suede
WRInaute accro
WRInaute accro
 
Messages: 3722
Enregistré le: 4 Oct 2002

Message le Mar Oct 26, 2004 17:40

WebRankInfo a écrit:Effectivement...

Pour éviter toute dérive vers des critiques de sites ou d'entreprises, je remercie tout le monde de se limiter à discuter le fond et non la forme.

Quelqu'un avait-il déjà vu cela ?
Quelqu'un avait-il constaté comme moi ceci dans l'API ?


Oui, à la fois pour mon site et d'autres. Et je trouve cela bien pratique. Ca evite d'avoir le meme site plusieurs fois dans la page et accélère le tri.

Pour compléter, j'en ai souffert quand j'etais en gratuit.

François

bad jack
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 3
Enregistré le: 27 Juin 2003

Message le Mar Oct 26, 2004 18:13

Bonsoir,

un grand intérêt pour cet article d'Alexis-berger.

Qu'appelle-t-on exactement le "deep" dans la phrase : "Comme le contenu de ce site est très intéressant d'autres webmasters vont faire des liens en "deep" vers les pages de ce site."
J'ai cherché dans le dico du net, mais à part le "deep crawl" de google, pas d'autre explication. Sachant que deep signifie profond...
Merci de l'éclaicissement

tuisp
WRInaute passionné
WRInaute passionné
 
Messages: 2076
Enregistré le: 27 Juin 2003

Message le Mar Oct 26, 2004 18:29

Bonsoir bad jack,

Ce doit être une manière de traduire "deeplink" qui désigne un lien vers une page spécifique d'un site (par ex. http://www.webrankinfo.com/forums/forum_1.htm ), par opposition à un lien vers sa racine ( http://www.webrankinfo.com/ ).


WebRankInfo
Administrateur du site
Administrateur du site
 
Messages: 22966
Enregistré le: 19 Avr 2002

Message le Mar Oct 26, 2004 19:06


bad jack
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 3
Enregistré le: 27 Juin 2003

Message le Mer Oct 27, 2004 7:19

Bonjour,

et merci pour vos réponses.

Contrairement à ce que semblent penser certains, il y a également des néophytes dans mon genre qui souhaitent apprendre, et un article, suivi d'explications est très instructif.

Bonne journée,
jack

afrodiziak
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 372
Enregistré le: 25 Déc 2004

Technik de référencement et +

Message le Ven Fév 11, 2005 23:55

Bonjour j'adore ce site une fois de plus.il ya un jargon vraiment élaborer...
je me penche sur le référencement et je ne comprends toujours pas pourquoi les balises <h1> <h2> <h6> occupe google !!!
de plus j'ai une fréquentation relativement élévé à mon degré et mon PR reste à 3 alors que des pages peu visité passe a 2 voir 3 comme ça alors que ça fait à peine un moi qu'elle figure genre un truc tout bête :
http://lorenz.mer.free.fr/mail.php cette page je l'ai mise il ya 1mois ou un peu plus et pouff pr2 alors que mon site http://lorenz.mer.free.fr est figé depuis longtemps en pr3 je commence à penser à me référencer de manière payante est-ce le bon choix?
(Je ne m'auto promotionne pas sur votre site là c'est juste pour comprendre)
Comment trouver une combinaison malicieuse pour se faire connaitre...je me balade bien sur le forum mais il ya des trucs un peu complexe à piger de suite...ex:robostats (jpige pas pourquoi on a besoin de loggin...)
faut il enregistrr page par page son site sur google ?
Merci pour vos réponses ...(si vous trouvez mon texte pas soporifique :)


WebRankInfo
Administrateur du site
Administrateur du site
 
Messages: 22966
Enregistré le: 19 Avr 2002

Message le Sam Fév 12, 2005 11:24

afrodiziak, merci de créer une nouvelle discussion si tu veux poser des questions précises sans rapport avec la discussion en cours ;-)

ocsima
WRInaute impliqué
WRInaute impliqué
 
Messages: 602
Enregistré le: 4 Sep 2004

Message le Mer Juin 22, 2005 18:50

GAMING ZONE a écrit:Bon pour les pro du ref, personne a remarquer que lorsqu'il y a cet effet clustering, et bien il y a une autre option qu' apparait, et qui invite l'utilisateur a en voir plus :
[ Autres résultats, domaine .......... ]

Cela me chatouille depuis longtemps, alors si quelqu'un a la réponse.
km sur le web : brint a un cluster mais pas l'option, tandis que dans le cas du km francophone, l'option est présente. Pourquoi ?

SaharaProxy
WRInaute discret
WRInaute discret
 
Messages: 91
Enregistré le: 28 Juil 2005

Message le Jeu Juil 28, 2005 11:04

la solution c de mettre le même titre que pour la home page pour une autre page avec un page rank élévé

anissber
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 1
Enregistré le: 5 Aoû 2005

Message le Ven Aoû 05, 2005 21:14

salut tous le monde
je suis un nouveau utilisateur de ce site


twin
WRInaute passionné
WRInaute passionné
 
Messages: 1523
Enregistré le: 23 Fév 2004

Message le Jeu Oct 06, 2005 9:57

Bonjour a tous,

Je voulais avoir vos conseils sur une chose. Mon site est classé à la première page d'un mot clef important 'f1':
http://www.google.fr/search?hl=fr&q=f1& ... DcountryFR
(Formule 1 - La Toile de la F1)
et j'ai la seconde page avec /index.php qui est 9 places dérrières:
http://www.google.fr/search?q=f1&hl=fr& ... rt=10&sa=N

Je voulais savoir si vous me conseillez d'améliorer mon référencement de la page qui est sur la 1ére page ou alors d'améliorer celle qui est sur la seconde page pour en arriver au clustering dans Google...Cela permettré à mon site d'être plus visible. Mais d'un autre coté si j'améliore le référencement de la première page, elle sera classé plus haute dans la première page de GG. Que me conseiller vous de faire ?


animostab
WRInaute discret
WRInaute discret
 
Messages: 149
Enregistré le: 14 Mai 2005

Message le Mar Nov 01, 2005 5:54

Je suis en page perso et pratiquement tous mes resultat sont clusterisés ou des fois je clusterise d'autres site du meme theme qui sont en perso egalement et le contraire egalement (sur mes requete principales je suis ds le top 10) il faudra voir si la jagger dance3 rectifie le tir ou faudrai peu etre dire a GG que pour les perso, les free et bien faudrait mettre un arborescence en plus.


bilos
WRInaute impliqué
WRInaute impliqué
 
Messages: 950
Enregistré le: 11 Oct 2005

Message le Lun Nov 07, 2005 11:12

Le clustering est-t-il optimisé pour les sites inscrits dans le programme Google Adwords ?
J'ai essayé Hp !
http://www.google.fr/custom?q=HP&client ... 1%3B&hl=fr
sur une bannière de recherche de Adwords !

cotp
WRInaute discret
WRInaute discret
 
Messages: 89
Enregistré le: 26 Juil 2005

Message le Lun Nov 07, 2005 11:12

J'ai crée il y a peu un post sur Deux résultats au lieu d'un dans Google où j'évoquais d'une part la différence des résultats selon le positionnement des mots. Et ensuite c'est vrai que celui qui apparait avec 2 résultats fausse la donne pour l'internaute car c'est 2 fois le même site. Maintenant comme cela a été expliqué dans les posts précédents, c'est le choix de Google et nous devons nous y adapter (on doit tous ici faire son référencement en fonction de Google hein ;) mmmm le danger mais c'est une autre histoire)
Enfin j'ai tout lu mais je n'ai pas tout compris, exemple comment optimiser ses pages pour le clustering ?

Cotp

prince ewan
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 35
Enregistré le: 2 Déc 2005

Message le Lun Jan 09, 2006 8:54

Pour ce qui me concerne, je n'ai jamais optimisé mon site (celui de mon WWW) pour le clustering (dont j'ignorais encore l'existence la semaine dernière) et pourtant j'en bénéficie (mais de manière aléatoire).

J'ai tappé au hasard dans google deux séries de mots clés qui m'apportent pas mal de visiteurs :

la première : rangers celtics. (-http://www.google.fr/search?hl=fr&q=rangers+celtics&spell=1)
Mon article apparaît tout seul à la première position

la seconde : mohamed ali foreman (-http://www.google.fr/search?hl=fr&q=mohamed+ali+foreman&btnG=Rechercher&meta=)
Mon article apparaît également en première position ainsi que la page "envoyer l'article à un ami" juste en dessous en arborescence

Pourquoi cette différence ? Est-ce parce-que la première requête est plus "concurrentielle" que la seconde ?

MM
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 1
Enregistré le: 12 Mar 2006

Message le Dim Mar 12, 2006 17:52

Bonjour,

La solution pour avoir plus de lisibilité au niveau du "clustering" (bien que j'appliquerais pas ce terme là..) n'est-elle pas de creer comme font les IPB, une version "bas debit" d'une meme page ? au risque de tomber dans le 56k-duplicate-content.

http://www.google.fr/search?hl=fr&q=Inv ... %3Dlang_fr
D'abord la version classique, puis la version bas debit.

Quelqu'un as-til de mieu ? cette methode là est-elle "correcte" ou insuffisente ?

PS: Genial j'ai fait remonter un topic.

Scryo
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 3
Enregistré le: 11 Mar 2006

Message le Mer Mar 15, 2006 22:07

Merci pour les articles.


Formation recommandée sur ce thème :

Formation REFERENCEMENT naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.

Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.

Lectures recommandées sur ce thème :