[article] Comment maîtriser le clustering dans Google
75 messages • Page 3 sur 5 • 1, 2, 3, 4, 5
Consultez la formation au référencement naturel Google de WebRankInfo / Ranking Metrics
- Alexis-Berger
- Nouveau WRInaute
- Messages: 7
- Inscription: Ven Oct 22, 2004 21:29
cariboo a écrit:Je suis vraiment étonné que des gens aussi connaisseurs des moteurs semblent ne découvrir ce truc que maintenant.
Puisque je ne peux rien vous apprendre, je ne répondrais pas à votre post n'ayant sans doute pour vous aucun interet.
Je laisse les gens se fairent leur propre opinion.
Cendrillon, en ce qui concerne la thématique, elle est utilisée par Google et de nombreux articles en parlent (surtout sur des sites américains).
Dans mon souvenir ca existe depuis très longtemps.
Par contre je ne comprend pas pourquoi autant de membre présent ici semblent obsédés par la triche
Vous bénéficiez d'un double résultat pour votre site alors est-ce que vous vous conssidérez comme un tricheur ?
Non mais j'ai toujours pas vu l'interet pour celui qui fait une recherche... En fait je pense que pratiquement personne ne remarque que le paragraphe est décalé vers la droite et peu d'internaute regarde les urls ce qui fait que ceux qui font une recherche vont regarder les 2 pages et vont retomber sur le même site et voir la même page, c'est donc du temps perdu...
Sinon pour la triche, ben c'est une réalité que n'importe quel référenceur ne peut ignorer... non ?
Heu sinon sur MSN c'est marrant il affiche les 2 même pages dans le clustering
http://techpreview.search.msn.fr/result ... configs+pc
Oui la question n'est pas de savoir si on ne découvre les doubles résultats que maintenant, cela fait bien longtemps qu'on les remarque.
L'intérêt de l'article d'Alexis est d'en expliquer le mécanisme, et ça, jusqu'à présent, personne ne l'avait encore fait ...
Merci pour ta contribution
L'intérêt de l'article d'Alexis est d'en expliquer le mécanisme, et ça, jusqu'à présent, personne ne l'avait encore fait ...
Merci pour ta contribution
-

a.nonyme4ever - WRInaute passionné

- Messages: 538
- Inscription: Ven Fév 20, 2004 16:51
Oui, en fait je ne m'étais jamais vraiment demandé comment cela fonctionnait et pourquoi cela fonctionnait comme ça.
Et c'est un bon début de réponse, encore merci pour cet article fort interessant!
J'ai hate de lire les suivants
Et c'est un bon début de réponse, encore merci pour cet article fort interessant!
J'ai hate de lire les suivants
Désolé si tu as mal pris cette remarque Alexis, cet étonnement ne s'adressait pas à toi.
Ton article et les réactions qui ont suivi démontrent qu'il était parfaitement utile de rappeler les principes de ce clustering, et même si je relève un point précis que j'estime erroné, je trouve le reste tout à fait utile et intéressant.
Sur la thématique : certes, plusieurs hypothèses circulent :
- l'utilisation du localrank et de hilltop
- l'utilisation du pagerank thématique, du blockrank thématique (présent dans l'index)
- l'utilisation de critères statistiques linguistiques (classiques, et probablement présent)
- l'utilisation de l'anchor text pour les outbound links (avec ou sans pondération par PR thématique)
- l'utilisation du theme clustering
- l'utilisation des c-index avec la methode d'abstraction en arbres hiérarchiques
- ...
J'en passe...
Quoi qu'il en soit, tout ceci n'est utilisé que comme l'un des nombreux critères utilisés par google pour classer les résultats dans les SERPS.
Comme tu l'as souligné, cette fonctionnalité est ancienne. En fait elle est là depuis la première version grand public de Google... Et à cette époque comme maintenant, les seuls critères pour regrouper l'url #3 avec la #7, c'est le fait d'être dans le même domaine/sous-domaine.
La thématique, c'est une autre histoire. Et il ne faut pas confondre "domain clustering" et "clustering thematique".
Le clustering thématique, c'est pour demain.
Pour info, Google a annoncé à la dernière Web 2 Conference (par la bouche de Peter Norwig) qu'ils expérimentaient depuis six mois une technique de clustering sémantique qu'ils appellent "named entities abstraction" (abstraction d'entités nommées, c'est à dire des noms, raisons sociales, téléphones, url, adresses mail etc...)
http://www.eweek.com/article2/0,1759,1668357,00.asp
Cette technique tel que Norvig la décrit ressemble à plusieurs méthodes déjà expérimentées par ailleurs. Elle permet un "tagage sémantique" automatique des entités nommées, qui, une fois couplée à une ontologie, permet de savoir exactement de quelle entité nommée on parle, et de renvoyer la bonne page en fonction du contexte...
Sauf qu'en général, on travaille par extraction des entités nommées. Travailler par abstraction est beaucoup, beaucoup plus difficile.
Ton article et les réactions qui ont suivi démontrent qu'il était parfaitement utile de rappeler les principes de ce clustering, et même si je relève un point précis que j'estime erroné, je trouve le reste tout à fait utile et intéressant.
Sur la thématique : certes, plusieurs hypothèses circulent :
- l'utilisation du localrank et de hilltop
- l'utilisation du pagerank thématique, du blockrank thématique (présent dans l'index)
- l'utilisation de critères statistiques linguistiques (classiques, et probablement présent)
- l'utilisation de l'anchor text pour les outbound links (avec ou sans pondération par PR thématique)
- l'utilisation du theme clustering
- l'utilisation des c-index avec la methode d'abstraction en arbres hiérarchiques
- ...
J'en passe...
Quoi qu'il en soit, tout ceci n'est utilisé que comme l'un des nombreux critères utilisés par google pour classer les résultats dans les SERPS.
Comme tu l'as souligné, cette fonctionnalité est ancienne. En fait elle est là depuis la première version grand public de Google... Et à cette époque comme maintenant, les seuls critères pour regrouper l'url #3 avec la #7, c'est le fait d'être dans le même domaine/sous-domaine.
La thématique, c'est une autre histoire. Et il ne faut pas confondre "domain clustering" et "clustering thematique".
Le clustering thématique, c'est pour demain.
Pour info, Google a annoncé à la dernière Web 2 Conference (par la bouche de Peter Norwig) qu'ils expérimentaient depuis six mois une technique de clustering sémantique qu'ils appellent "named entities abstraction" (abstraction d'entités nommées, c'est à dire des noms, raisons sociales, téléphones, url, adresses mail etc...)
http://www.eweek.com/article2/0,1759,1668357,00.asp
Cette technique tel que Norvig la décrit ressemble à plusieurs méthodes déjà expérimentées par ailleurs. Elle permet un "tagage sémantique" automatique des entités nommées, qui, une fois couplée à une ontologie, permet de savoir exactement de quelle entité nommée on parle, et de renvoyer la bonne page en fonction du contexte...
Sauf qu'en général, on travaille par extraction des entités nommées. Travailler par abstraction est beaucoup, beaucoup plus difficile.
-

GAMING ZONE - WRInaute passionné

- Messages: 533
- Inscription: Ven Aoû 13, 2004 20:06
Oulala ca remut !
Bon pour les pro du ref, personne a remarquer que lorsqu'il y a cet effet clustering, et bien il y a une autre option qu' apparait, et qui invite l'utilisateur a en voir plus :
[ Autres résultats, domaine .......... ]
Cela permet de faire plus de recherche
Bon pour les pro du ref, personne a remarquer que lorsqu'il y a cet effet clustering, et bien il y a une autre option qu' apparait, et qui invite l'utilisateur a en voir plus :
[ Autres résultats, domaine .......... ]
Cela permet de faire plus de recherche
-

Cendrillon - WRInaute accro

- Messages: 4747
- Inscription: Mar Aoû 17, 2004 15:41
Alexis-Berger a écrit:Cendrillon, en ce qui concerne la thématique, elle est utilisée par Google et de nombreux articles en parlent (surtout sur des sites américains).
je n'en doute pas, un article paru sur influx (http://influx.joueb.com/news/92.shtm) le Lundi 25 Août 2003 :
Vivisimo, considéré par beaucoup comme l'un des meilleurs métamoteurs (1) propose depuis quelques jours de nouvelles fonctionnalités intéressantes :
- le lien "frame" qui offre de nouvelles possibilités de navigation. Ainsi, sur votre page de résultats, un clique sur "frame" vous permet notamment de rajouter un site à vos "bookmarks", d' accéder à sa version "Cache" dans Google, de naviguer sur les autres sites de la page de résultats…
- l'atout majeur de Vivisimo c'est le "clustering" ,c'est-à-dire le regroupement des résultats dans des dossiers thématiques. Ainsi une requête sur "intelligence" regroupera vos résultats dans les dossiers "artificielle", "SETI", "Economique" , "personnalité",..Bref autant de catégories qui vous permettent d'affiner votre requête initiale. Sur Vivisimo, la page est divisé en 2 grandes zones :à gauche les dossiers, à droite votre page de résultats.
Précisément, une nouvelle fonction, "Find in clusters" permet de rechercher au sein de ces "clusters/groupes". Les termes de cette recherche seront mis en évidence (par surlignage) au sein des dossiers thématiques mais également au sein de la page de résultats.
- le lien "Show in clusters" : permet de situer chaque résultat de recherche au sein de la hiérarchie des dossiers thématiques de la colonne de gauche. Pratique pour connaître l'univers contextuel d'un résultat et trouver facilement des sites appartenant à la même thématique.
- le lien "détails" : permet d'accéder au processus détaillé de la recherche effectuée par le métamoteur : moteurs utilisé, nombre de résultats rapatriés pour chacun…
Et toujours : Le module de recherche avancée et la fonction Prévisualisation .
Raul Valdes-Perez, co-fondateur, compare le web à une librairie :"Avec un moteur traditionnel, les livres sont empilés en vrac sur le sol. Avec Vivisimo, les livres sont soigneusement rangés sur une étagère" explique-t-il.
"Les développeurs de Vivisimo ont définit 4 critères pour créer les "clusters" : des titres concis, précis, distinctifs, et "humains", c'est-à-dire que l'on ne doit pas penser qu'ils ont été générés par une machine. En créant les catégories, les algorithmes de Vivisimo tentent de faire 2 choses : regarder le titre et le contenu d'un site web et ensuite utiliser une base de données de synonymes et d'abréviations pour ranger les sites dans la catégorie la plus appropriée".
Vivisimo est une société de Pittsburgh, Pennsylvanie, issue d'un centre de recherhe du département Informatique de l'Université de Carnegie Mellon (2). C'est là que Raul Valdes-Perez a développé les algorithmes de Vivisimo avec Jerome Pesenti et Chris Palmer.
Aujourd'hui, Vivisimo gagne de l'argent en vendant sous licence ses techniques de clustering pour des sites ou bases de données de grands organismes. Parmi eux : la NASA ou la Stanford University's HighWire Press qui édite notamment le Journal of the American Medical Association. Ca va plutôt bien pour Vivisimo puisque le moteur a annoncé le 12 juin qu'il avait reçu 350 000 $ de récompense de la National Science Foundation amenant à 1 millions de $ le montant total des récompense obtenues par l'équipe de Pittsburgh.
En outre, les analystes prévoient que Google comme d'autres moteurs devront utiliser la technologie de "clustering" pour rester concurrentiels…
(1) élu meilleur métamoteur 2002 par Searchenginewatch.
(2) Le moteur Lycos a également été développé à Carnegie Mellon par Michael Mauldin
bien sûr cela ne prouve pas que c'est déjà utilisé dans le clustering Google ... mais si Vivissimo le propose sur son métamoteur depuis 2003, on peut présumer que le n°1 mondial de moteurs de recherche a un peu avancé sur le sujet ...
une autre
ca fait longtemps que j´avais repéré ce phénomène et je suis également étonné de voir que ceci semble etre une découverte pour certains. mais l´article est très bon et explique parfaitement le phénomène.
je ne sais pas si il faut se casser la tete sur les raisons du pourquoi du comment. Mon avis est que google estime que si une premiere page est pertinente pour arriver en 1ere place et qu une autre page du meme site est pertinent pour arriver en 8eme place par exemple, alors ces deux pages "ensemble" méritent au moins la meilleure place des deux (la 1ere donc).
la raison "esthétique" est peutetre un peu faible mais il peut s´agir d´une simple décision de regrouper deux page d´un meme NDD tout simplement et sans arriere pensée de thématique and Co.
ca fait longtemps que j´avais repéré ce phénomène et je suis également étonné de voir que ceci semble etre une découverte pour certains. mais l´article est très bon et explique parfaitement le phénomène.
je ne sais pas si il faut se casser la tete sur les raisons du pourquoi du comment. Mon avis est que google estime que si une premiere page est pertinente pour arriver en 1ere place et qu une autre page du meme site est pertinent pour arriver en 8eme place par exemple, alors ces deux pages "ensemble" méritent au moins la meilleure place des deux (la 1ere donc).
la raison "esthétique" est peutetre un peu faible mais il peut s´agir d´une simple décision de regrouper deux page d´un meme NDD tout simplement et sans arriere pensée de thématique and Co.
-

WebRankInfo - Administrateur du site

- Messages: 15905
- Inscription: Ven Avr 19, 2002 19:51
herveG a écrit:je ne sais pas si il faut se casser la tete sur les raisons du pourquoi du comment. Mon avis est que google estime que si une premiere page est pertinente pour arriver en 1ere place et qu une autre page du meme site est pertinent pour arriver en 8eme place par exemple, alors ces deux pages "ensemble" méritent au moins la meilleure place des deux (la 1ere donc).
Attention tout de même car ce n'est pas systématique. Parfois Google ne juge pas utile de rassembler les deux résultats issus du même sous-domaine... L'intérêt de cette analyse est donc de déterminer quand est-ce que Google rassemble les deux résultats.
-

WebRankInfo - Administrateur du site

- Messages: 15905
- Inscription: Ven Avr 19, 2002 19:51
non, pas sur la meme page de résultats, mais pas loin
je veux simplement rappeler que ce n'est pas systématique le regroupement de deux pages d'un meme site
je veux simplement rappeler que ce n'est pas systématique le regroupement de deux pages d'un meme site
- Generations
- Nouveau WRInaute
- Messages: 2
- Inscription: Mar Oct 26, 2004 16:38
squawk a écrit:Non mais j'ai toujours pas vu l'interet pour celui qui fait une recherche... En fait je pense que pratiquement personne ne remarque que le paragraphe est décalé vers la droite et peu d'internaute regarde les urls ce qui fait que ceux qui font une recherche vont regarder les 2 pages et vont retomber sur le même site et voir la même page, c'est donc du temps perdu...
A ma connaissance le clustering ne permet pas de faire apparaitre deux fois la même page. Cette redondance n'apparaissant qu'à des requêtes sur des mots clés qui ne sont pas hyper convoités, il arrive souvent qu'un seul site et donc les contenus d'au moins deux de ses pages soient plus pertinents que l'ensembles des autres liens proposés. Je trouve que cela peut avoir une pertinence dans ce cas.
Exemple : "Gilles de Gouberville" gentilhomme Normand de la fin du XV siècle. Le seul site francophone qui traite sérieusement du sujet (par ailleurs fort intéressant ...) mérite largement deux liens en première page de Google .
Paradoxalement, cela peut être une prime à la production de contenus pertinents ...
WebRankInfo a écrit:Effectivement...
Pour éviter toute dérive vers des critiques de sites ou d'entreprises, je remercie tout le monde de se limiter à discuter le fond et non la forme.
Quelqu'un avait-il déjà vu cela ?
Quelqu'un avait-il constaté comme moi ceci dans l'API ?
Oui, à la fois pour mon site et d'autres. Et je trouve cela bien pratique. Ca evite d'avoir le meme site plusieurs fois dans la page et accélère le tri.
Pour compléter, j'en ai souffert quand j'etais en gratuit.
François
Bonsoir,
un grand intérêt pour cet article d'Alexis-berger.
Qu'appelle-t-on exactement le "deep" dans la phrase : "Comme le contenu de ce site est très intéressant d'autres webmasters vont faire des liens en "deep" vers les pages de ce site."
J'ai cherché dans le dico du net, mais à part le "deep crawl" de google, pas d'autre explication. Sachant que deep signifie profond...
Merci de l'éclaicissement
un grand intérêt pour cet article d'Alexis-berger.
Qu'appelle-t-on exactement le "deep" dans la phrase : "Comme le contenu de ce site est très intéressant d'autres webmasters vont faire des liens en "deep" vers les pages de ce site."
J'ai cherché dans le dico du net, mais à part le "deep crawl" de google, pas d'autre explication. Sachant que deep signifie profond...
Merci de l'éclaicissement
75 messages • Page 3 sur 5 • 1, 2, 3, 4, 5
Formation recommandée sur ce thème :
Formation Référencement naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.
Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.
Lectures recommandées sur ce thème :
- Le secret des doubles-résultats
- Google facilite l'affichage de + de 2 résultats par sous-domaine (clustering)
- Optimiser son site avec le clustering sur Google
- Comment protéger sa vie privée sur Internet
- Google Deskbar : la recherche sur votre bureau
- Google Deskbar, un petit logiciel bien pratique
- The Technology Behind Google
- Formation Droit et Internet : enjeux juridiques d'un site web
- Web 2.0 et au-delà, le livre de David Fayon (préface Pierre Kosciusko-Morizet)
- Les enjeux juridiques du Web 2.0 : quelques réflexions...
- [article] APACHE, comment ça marche ?
- "Clustering" multiple sur le 1er résultat Google
- Google et la "sectorisation" des mots (clustering)
- topics des pages d'affichage 'article comment joomla 1.5.6
- Article WRI 'Comment résoudre les problèmes de Bourbon'
- [Article] Comment intégrer un flux RSS sur son site
- Comment populariser une page avec un article vers votre site ?
- Le clustering passe à 3?
- clustering non réspecté
- probleme de clustering
- [article] Comment faire des liens en dur dans son annuaire
- Url Rewriting article par article
- article-nom-article.html.php VS article-12-5.php
- je comprends pas la méthode de clustering
- Le Clustering pour les inscrits sur Adwords !
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités







le forum