Termes associés vs Recherches apparentées

WRInaute passionné
Hello,

Peut-être le point fort d'Exalead ?

Google a ses « Recherches apparentées », et Exalead a ses « Termes associés ». Et le sense n'est pas le même. Je me faisait tout d'abord la remarque ces derniers jours (je navigue d'un moteur de recher à l'autre en fonction du type de recherche, même si je suis principalement sur Yahoo) que les termes associés determinés par Exalead sont assez pertinants dans l'ensemble, du moins pour les pages de résultats pour lesquels ils ressort des résultats pertinants (je veux dire que je perçois une corrélation du niveau de qualité entre les deux).

C'est l'occasion de se poser la question d'un point de vue sémantique, qu'est-ce qui a le plus de sense et qu'est-ce qui rend le plus service selon vous ? Founir une liste de recherches apparentées ou fournir une liste de termes associés ? D'un point vue exploration d'un domaine, la notion de termes associés semble la plus approprié au premier abord, tandis que les recherches apparentées de Google renverraient plutôt aux (autres) internautes plus qu'aux documents.

Les différences de concept qu'expose la distance entre ces deux termes mettraient-elles en lumières les différences conceptuelles au sujet de ce qu'est un bon service rendue à un(e) internaute effectuant une recherche au yeux d'Exalead d'une part et de Google d'une autre part ?

Essayez et expérimentez l'exploration d'un champ de recherche en employant les recherches apparentées d'un côté et les termes associés de l'autre. Quelles différences d'expériences retenez-vous de ces deux différentes approches ?
 
WRInaute discret
Il me semble que google utilise les requêtes de ses utilisateurs pour fournir une liste de recherche apparentés. Tandis que Exalead utilise un autre moyen pour déterminer des termes associés et je préfère de loin cette deuxième méthode qui donne de bons résultats hormis tu l'as peut être remarqué sur des termes généraux.

Je distingue l'exploration des termes/recherches associés à propos de termes déjà spécifique comme un Nom de personne, des termes globaux comme une catégorie Sport par exemple là google reste meilleur.
 
WRInaute passionné
Bonjour,
Le plus de sens reste la pertinence des résultats et c'est pour cela, entre autres, que Google se taille la part du lion
 
WRInaute passionné
Hello Didi,

Tu as raison quand tu dis que Google et Exalead (Exa pour les intimes lol) utilisent une source différente.

Comme indiqué dans la documentation d'Exalead, les termes associés sont extraits de la nébuleuse (petite) des termes qui accompagnent ou tournent autour d'un thème ou d'une expression identifiant un thème. Tandis que les recherches apparentées, sont extraites effectivement comme tu le dis bien, des recherches ayant été effectuées plus ou moins dans le même temps que celles-ci.

La recherche apparentée, renvoit à l'idée de « les clients qui ont acheté le livre XYZ, ont aussi acheté le livre ABCD », qui se retrouvent dans les librairies en ligne.
Les termes associés ressemble plus à ce que l'on nome le champ sémantique et qui n'est certainement pas trés éloigné de l'idée de thésaurus (disont que la première notion est une classe qui reconnait la seconde).

Google sait aussi utilisé les champs sémantique, mais il les utilisent principalement pour les annonces AdSense. Ou du moins, c'est à ce moment qu'il met en oeuvre cette technique de manière visible. Il est probable qu'il utilise cette technique de manière invisible, pour établir la pertinance (variable) de ses classements.

Mais comme Exalead montre qu'il sait utiliser cette technique, on peut supposer qu'il l'utilise peut-être lui aussi pour le classement de l'adéquation des pages pour une thématique donnée.

Petite annecdote : Altavista a déjà bénéficié de cette technique de l'auteur d'Exalead, pendant deux ans, avant même l'arrivée de Google. Mais apparement cette technique n'a pas été exploitée à fond sous Altavista (j'étais moi-même à cette époque un inconditionel d'Altavista et je ne me souviens pas avoir vu ce filtrage). C'est dommage, et peut-être que le paysage des moteurs de recherche d'aujourd'hui en serait différent... avec peut-être plus de diversité, puisque de toute manière Google serait apparu tout de même (sa technique aurait finie par s'exprimer dans tous les cas), mais avec un concurrent sérieux face à lui.

Sinon, pour mon avis personelle : je te rejoins sur l'idée que les termes associés sont plus proches des documents en général, même s'il sont affaiblie par peut-être un manque de pertinance plus général, mais compréhensible pour un moteur jeune et qui vie dans l'ombre de Google.

Petite note un peu à part : il y a effectivement des problèmes de pertinance avec Exalead sur le web, mais le web est vaste, ... et il est aussi une jungle où l'on peut compter sur le vilain spam-dexing pour venir « pourrir » et polluer l'environnement. Cependant, à voir ce que l'on voit d'Exalead sur le web, j'imagine assez facilement que dans un contexte plus sâge - sans spam-dexing - et mieux organisé, comme cela est logiquement le cas dans le corpus documentaire d'une entreprise, qu'Exalead doit être certainement une trés bonne solution dans ce contexte. Alors je ne suis pas du tout étonné qu'Exalead soit trés orienté service aux entreprises. Dans ce contexte, il est certainement bien bon, ... encore meilleur que sur le web j'imagine.
 
WRInaute passionné
@detectimmobilier

Mes excuses, tu as répondu pendant que j'écrivais, alors je ne t'ai pas vu de suite.

C'est sûr que Google se taille la part du lion, c'est sûr qu'Exalead n'est pas parfait. Mais c'est un l'utilisant qu'on le fera évoluer. C'est comme un enfant à qui on ne parle jamais : il ne saura jamais parler. Donc même si les internautes n'utilisent pas Exalead, il faut que les personnes sensibilités à la question de la recherche l'utilisent de temps en temps, pour le « nourrir ». Ce qui n'est d'ailleur pas que faire acte de charité, puisque Exalead ayant des résultats assez différents de ceux de Yahoo par exemple, il peut être utile à dénicher des petites perles qui se retrouveraient au confin des résultats des autres moteurs.

Non seulement l'utiliser l'aide à avancer, mais c'est aussi souvent utile.

En parcourant ce forum, j'ai relu d'anciens postes où étaient données des exemples de recherches aboutissant à de mauvais résultats sous Exalead. En resuivant les même lien aujourd'hui, je constate que les résultats sont meilleurs qu'il ne l'étaient il y a deux ans.

Et puis ceci me fait penser à un topic récent sur le forum officiel du navigateur Opera où des gens se posaient la question de savoir pourquoi Opera ne parvient pas à décoler par rapport à FireFox. J'avais répondu et d'autres étaient d'accord, que les personnes satisfaitent de ce navigateur n'ont pas besoin qu'il se taille une grosse part de marché pour qu'il leur soit utile. Il en va de même pour Exalead. Même s'il est peu fréquenté... c'est dommage, mais son existance reste quand-même tant-mieux pour ceux/celles qui l'utilisent.

Mais c'est vrai qu'un seuil de fréquentation minimum aide à maintenir la pereinité, ne serait-ce qu'en fournissant des revenir publicitaire qui vont soutenir l'investissement humains des personnes qui ont à charge le développement d'Exalead (c'est d'ailleur en partie la crainte de voir Opera disparaître un jour qui avaient motivé le topic sur la part de marché d'Opera : Opera Market Share vs Firefox)
 
WRInaute discret
C'est comme un enfant à qui on ne parle jamais : il ne saura jamais parler

Très belle comparaison :)
Je suis pleinement d'accord avec ton post Hibou mais j'ajouterai deux trois arguments quant au succès de google face à ses concurrents.
Développant moi même un moteur de recherche (mais pas pour le web) je me pose souvent la question de pourquoi tel outil est utilisé contrairement à un autre.

Je regrette mille fois d'avoir oublié comment je faisais avant ? mes maigres souvenirs me laissent à penser que j'utilisai yahoo, à l'époque c'était la "classe" d'être référencé chez yahoo et leur annuaire était le meilleur (je n'ai jamais connu altavista :oops: ni infoseek et tout).
Je crois que j'ai adopté google (comme beaucoup) parce qu'il m'apportait exactement ce que je cherchai, c'est donc par fainéantise que je l'ai adopté :) Si mes souvenirs sont bons encore une fois, c'est un ami qui me la fait tester, et j'ai du l'adopter tout de suite.

Je pense que beaucoup utilise google et seulement lui car ils se sont habitués à google, cette question d'habitude est peut être même plus importante que la notion de pertinence. En réfléchissant bien aux moteurs de recherche, on est capable de dire que google est le meilleur de tous, mais en essayant de penser à l'utilisation de google par l'ensemble des internautes, on remarque que google est un réflexe.

Pour un développeur c'est ultra compliqué de créer un "réflexe" car sa vision est borné à son monde de développeur, en deux mots le développeur en "sait trop". Concrètement je sais que mes habitudes sont analytics, mail, serveur, adsense, phpMyAdmin, google et mon site :) Mais un utilisateur (potentiel utilisateur de mon site) va vraiment avoir des habitudes différentes. C'est sur ce point que google écrase la concurrence. Car l'accès à l'information se fait désormais par le "proxy" google qui filtre choisit ce que nous allons regarder :)

Je pense vraiment que c'est l'effet réflexe, plus que la pertinence qui fait de google le meilleur.
Est ce qu'un réflexe se perd ? j'ai jamais connu de site à succès que je quittai pour un autre ?!? Finalement l'internaute est surement très fidèle :)

En revanche exalead peut gagner une énorme part de marché si jamais il propose aux webmaters (à la communauté) un service novateur et avantageux. Tous les webmasters (moi compris) scrutent leurs classement sur google, il suffit de voir le nombre de posts à ce propos sur WRI :) Mais peu se souci d'exalead. En proposant quelque chose de nouveau comme une interaction entre un moteur de recherche et un webmaster pourrait être une avancé majeure car gagner le coeur des webmasters c'est convaincre la maille infinie qui constituent le web aujourd'hui :)

S'il y en a certains d'entre vous qui se rappellent leurs histoires "A quel age j'ai utilisé tel moteur et pourquoi" n'hésitez pas ;)
 
WRInaute passionné
didi78 a dit:
S'il y en a certains d'entre vous qui se rappellent leurs histoires "A quel age j'ai utilisé tel moteur et pourquoi" n'hésitez pas ;)

Oullllllla, en piochant dans les souvenirs, je me souviens avoir commencé avec Netscape en 96, y'avait encore la queue pour utiliser le minitel et personne sur le seul PC avec accès internet :)
 
WRInaute passionné
hibou57 a dit:
@detectimmobilier

Mes excuses, tu as répondu pendant que j'écrivais, alors je ne t'ai pas vu de suite.

Pas grave :wink:

En parcourant ce forum, j'ai relu d'anciens postes où étaient données des exemples de recherches aboutissant à de mauvais résultats sous Exalead. En resuivant les même lien aujourd'hui, je constate que les résultats sont meilleurs qu'il ne l'étaient il y a deux ans.

Je viens de faire quelques essais, certains sont flatteurs, d'autres beaucoup moins
Mais c'est vrai qu'il est agréable à utiliser
La fonction "Seulement les résultats récents" est un peu déroutante......
 
WRInaute passionné
didi78 a dit:
Très belle comparaison :)
..... bizzare que ce genre d'idée me traverse souvent l'esprit... pourtant je n'ai pas d'enfants (normal, je n'ai pas de voiture et je ne bois pas d'alcool et je ne frime pas)... bon, bref, passons le h-s.

didi78 a dit:
Développant moi même un moteur de recherche (mais pas pour le web) je me pose souvent la question de pourquoi tel outil est utilisé contrairement à un autre.
Je ne sais pas si je vais être embêtant, mais si tu veux m'exposer ce projet, éventuellement en MP si c'est secret (juste parce que ça a l'air interessant, mais je n'y connais rien en conception de moteur de recherche).

didi78 a dit:
S'il y en a certains d'entre vous qui se rappellent leurs histoires "A quel age j'ai utilisé tel moteur et pourquoi" n'hésitez pas ;)
Alors j'en ai des souvenirs, même si je n'avais pas internet à l'époque, je me débrouillais pour me connecter de temps en temps comme je le pouvais, pour chercher des docs sur le net (moyennant parfois pas mal de bornes en hitchhiking).

Je me souviens que mes premières expériences m'ont laissé de mauvais souvenirs. Je me souviens par exemple d'un moteur de recherche (obscrure, avec le recul) sur lequel j'avais entré une requête et de mon incompréhension d'être envoyé sur une page qui n'était sans aucun rapport, absoluement aucun, avec la formulation de ma requête. C'est bien simple, la page ne contenait absoluement aucun des mots que j'avais écrit. Il s'agissait probablement d'un spam de la balise meta-keywords, mais ça, à l'époque, j'en ignorais tout. Les annuaires que je pensais êtres des instruments de recherche m'ont également souvent laissé assez perplexe. Un exemple : j'avais trouvé un site sur un thème, que je trouvais interessant. Par curiosité, j'ai voulu voir si l'annuaire proposais ce site. Ne l'ayant pas vu, j'ai entrepris de le proposer via le lien adéquate. Et là, je n'ai pas compris pourquoi je devais répondre à tant de questions qui supposait que j'étais l'auteur du site. À ce sujet, il faut dire que bien que connaissant mieux ces choses là maintenant, je reste encore souvent pantois devant la quasi-totalité des annuaires. Je me souviens assez bien d'un moteur, qui il me semble était en fait un métamoteur. Je ne me souviens plus de son nom, mais il avait un logo à dominante rouge, avec deux rond qui faisaient comme deux yeux (InfoSeek ?). Aprés beaucoup de péripéties et surtout de deceptions, je me suis arrêté sur Altavista. J'appréciais surtout ses opérateurs de recherche (et regrète au passage que Google ne respecte plus cette notion). Je suis resté un certains temps avec Altavista, puis un peu Yahoo que j'avais découvert plus tard, à tel point que lorsque les espaces mutimédia de la ville ont commencé à tous placer Google en page d'accueil à l'époque du buzz initial de Google, je retapais systèmatiquement http://www.altavista.com dans la barre d'adresse du navigateur, sous l'oeil désaprobateur du responsable des lieux. Sincètement, je trouvais les résultats d'Altavista bien meilleur (le buzz de l'époque ne m'avais pas émus plus que ça), et ce n'est que 2 ans environ aprés le buzz initial de Google, que j'ai commencé à le trouver interessant. Je suis resté un certains temps avec Google, puis aprés avoir compris les dangers que représente ce monopole (qui ne s'arrête pas au moteur de recherche), je me suis remis à chercher de nouveau moteur de recherche comme à mes débuts. C'est de cette manière que j'ai découvert Exalead et que un peu plus tard dans le même temps, j'ai re-découvert Yahoo!, tout en regrétant la disparition d'Altavista (le vrai, avec ses opérateurs de recherche).

Oilà :D

Désolé pour le style paté, je ne me sent pas trop l'esprit à faire des prouesses naratives ce soir.
 
WRInaute passionné
J'ai retrouvé le nom du moteur de recherche avec « deux gros yeux ». C'était HotBot (et non pas InfoSeek), qui a lui aussi disparu. Le vrai n'existe plus, puisque le HotBot actuel renvoie maintenant les résultats de Google.
 
WRInaute discret
merci hibou pour tes précisions.

InfoSeek avait aussi un logo rouge il me semble ? C'est vrai qu' Altavista a été le meilleur pendant longtemps, d'ailleurs s'il était meilleur que google à ses débuts alors comment le buzz de google a apparu ? Comment un site peut il buzzer s'il est moins bon qu'un autre sans pub ? il me semble que le buzz de google s'est fait par le bouche à oreille et non la pub.

Quant à mon projet j'en parle sans mettre de lien, il s'agit de mooveOn (une petite recherche sur exalead (pour changer :)) te donnera l'adresse exacte). Ce n'est pas secret car il est publique depuis quelques mois.
Il s'agit d'un crawler de vidéos, mais le projet va plus loin en indexant les articles RSS parlant des vidéos, les commentaires etc. Toutes ces données subjectives permettent d'établir un video_rank (une sorte de pagerank mais pour la vidéo).

il s'avère que ce système marche bien excepté certains problèmes : si youtube ou dailymotion ou un hébergeur de vidéos crawlé par mooveOn supprime une vidéo, le robot devrait pouvoir la supprimer aussi (un truc que l'on est entrain de développer :))
Pour le moment les hébergeurs crawlés sont youtube, dailymotion, myspace, megavideo, wat, metacafe
Il y a environ 5 millions de vidéos (depuis peu :))

Le gros problème est que le robot, site web etc. tournent sur le même serveur :(
J'espère avoir plus de revenus pour financer d'autres serveurs :)


Mais en réalisant un tel outil, on se rend compte petit à petit des problèmes auxquels on n'aurait jamais pensé avant. Le premier est la gestion linguistique. C'est très compliqué par exemple il faut penser au fait que l'arabe se lit de droite à gauche et donc la position d'un mot dans une phrase n'est pas la même..
Autre exemple, si une video a un fort video_rank mais que son thème ne s'apparente pas à la recherche mais pourtant possède un tag correspondant à la recherche il faut savoir exprimer le fait que les tags de la vidéo sont de thématiques différentes et donc perdent en valeur :)

Moi aussi je ne connaissais rien aux moteurs de recherche, mais l'article de sergey brin et larry page m'a bien aidé :
http://infolab.stanford.edu/~backrub/google.html
C'est une base qui permet de bien comprendre, bien sur l'indexation des vidéos est différente car le contenu est différent, mais dans l'ensemble un moteur de recherche possède cette base bien expliqué :)
 
WRInaute passionné
Hillo Didi,

Je viens de tester ton moteur de recherche vidéo, je vais le tester plus en profondeur plus tard. J'ai juste remarqué un ch'tit bug d'affichage (sous Opera 9.6 au moins) : apparement un problème d'encodage des suggestions de recherche qui s'affichent pendant la saisie. Je t'ai fait un extrait de copie d'écran pour que tu vois mieux : http://img4.imageshack.us/img4/2844/moteurrecherchedidi.png

J'allais écrire « vie extraterrestre » et quand je suis arrivé à « vie ex », et que le champ de saisie a voulu afficher la suggestion « vie expliquée », il s'est produit une erreur d'encodage sur le « é ». Une erreur typique de l'UTF-8 renvoyé comme de l'ISO-8859-XX.

Pour la question liant la quotation d'une vidéo et les termes la décrivant, je vois ce que tu veux dire. Le phénomène ressemble à celui que l'on trouve dans les langues, avec les mots qui ont peu de poid pour le sense général d'une phrase.

C'est souvent plus facile à dire qu'à faire, mais il faut penser en terme d'ensemble plutôt que de parties. Avec la recherche d'information, comme avec les langue, le sens et le poid des éléments dépend toujours du contexte.

Je ferai des testes de ton moteur en ce qui concerne DailyMotion : j'ai remarqué un problème assez grave sur DaiyMotion. Le spam-dexing y est beaucoup trop facile. Trop de membres écrivent des descriptions de leurs vidéos qui ne sont que des patés de mots clés (et de plus toujours la même série pour toutes les vidéos d'un même membre le plus souvent). Le moteur de recherche interne de DM ne semble avoir absoluement aucune protection contre ça. Et à mon avis, ça plombe sérieusement DM (même si parfois on peut découvrir des choses assez drôles comme ça, ce n'est pas toujours drôle). Ce qui est dommage, parce que dans l'ensemble les vidéos de DailyMotion me semblent souvent meilleurs et plus interessantes que celles de YouTube (au moins pour les reportages que j'y ait vu, on y trouve des reportages de sciences sociales comme on en trouve pas sur YT).

Bref, je verrai plus tard, je vais tester pour voir si ton moteur est protégé contre le spam des descriptions avec les vidéos de DM.

C'est une bonne idée se projet, on a besoin de moteurs spéciaisés. J'espère qu'il aura du succès ton moteur :D
 
Discussions similaires
Haut