Messages: 1323

Enregistré le: 1 Nov 2006

Message le Mer Avr 22, 2009 10:56

Hillo,

L'un des critères de jugement d'un moteur de recherce (si l'on fait son choix selon des critères plus que par habitude), c'est le temps nécessaire au rafraîchissement de l'index. Cette vitesse de rafraîchissement a une incidence directe et logique sur la pertinance des résultats, car une page peut avoir subie des modifications ou mises à jour importantes à la suite de sa première mise en ligne.

Bien entendu, le moteur monopolistique que je ne nomerai pas tant il est connu, est réputé avoir une vitesse de rafraîchissement assez importante...... mais surtout avec les pages des sites connus ! Mais qu'en est-il de son traitement des autres sites qui constituent la plus grande part du net ?

Car en effet, mettre dans le bon ordre le contenu d'un index par rapport à une requête donnée, implique que tous les éléments de l'index puissent êtres traités de manière égale. Sans cela, les résultats sont inévitablement biaisés ou alors l'index est comme sous-exploité.

Il se trouve que je crois avoir remarqué qu'en dehors des sites connus, la vitesses de rafraîchissement de l'index d'Exalead est trés largement (je n'essai pas d'exagérer, c'est bien le superlatif me semblant le plus approprié à ce que j'en ai remarqué) supérieure à celle du moteur monopolistique et même supérieure à celle de Yahoo.

Pour être honnête, en ce qui concerne les sites connus, le moteur monopolistique est plus rapide qu'Exalead, puisqu'il rafraîchi parfois en moins de deux heures (là encore, je n'exagère pas, je l'ai constaté sur certains forums connus). Mais comme dit précédement, une pleine et véritable capacité de traitement d'un index, exige de pouvoir traiter de manière égale tous les éléments de l'index, sans quoi on ne peut plus parler de pertinence par rapport à l'ensemble de l'index, mais seulement de pertinence par rapport à un sous-ensemble de l'index. Vous me suivez ? Si par hasard je ne suis pas trés clair dans ma formulation, ne pas hésiter à me demander de reformuler.

Ceci fait penser que la taille d'un index n'est donc finalement pas une mesure interessante, si seulement une petit sous-ensemble de cet index est véritablement utilisé comme on l'attend (car alors la taille de l'index ne serait qu'une illusion de capacité).

Avez-vous, vous aussi remarqué cette différence de rapidité de rafraîchissement de l'index dans son ensemble chez Exalead par rapport aux autres moteurs ?

Partagez-vous également cette idée que le traitement égal de tous les éléments de l'index d'un moteur a une importance sur le sense et la valeur qu'il est possible d'accorder à la taille de cet index ?

J'avais lu il y a environ 1 an et demie, dans un article de veille technologique, que Exalead projetait de déployer un système innovant de stockage, qui lui permettrait d'avoir un index plus important que celui de son principal concurrent, avec à index égale, un consomation de resource moindre (en peu de mots : techniquement plus efficace). Se pourrait-il que cette technique de stockage propre à Exalead facilite également un accès égal à toutes les parties de l'index, sans en privilégier une sur les autres ? ... amméliorant au moins potentiellement sa pertinance par rapport à celle de son principale concurrent.

Ce dernier point est une spéculation, mais aprés tout, il est peut-être possible d'imaginer que la technologie spécifique employée par Exalead, ne fasse pas qu'augmenter la capacité de stockage de l'index, mais ait aussi un impact sur son accés, sur l'homogénéité de son accès.

Est-ce que qelqu'un(e) en sait assez sur Exalead pour en dire plus sur ce point ?
Haut
6 Réponses
Messages: 9959

Enregistré le: 5 Mar 2003

Message le Jeu Avr 23, 2009 10:15

Gogole a toujours été en mesure d' analyser la "nécessité" de rafraichissement des caches des pages qu' il indexe. Pour moi, ce n est pas le fait qu un site soit connu ou non qui détermine la fréquence de rafraichissement des caches mais la fréquence de mise à jour des contenus. La nécessité de déterminer la nécessité de crawler et rafraichir les caches est bien plus importante chez google au regard du volume des pages indexées. Si certains moteurs peuvent se permettre une procédure "standard" et rapide de crawl, je pense qu' a partir d un certain volume d'index, il devient impossible d' en faire autant pour des raisons de ressources. Google attribue donc des priorités. Ces priorités sont fixées par rapport a la fréquence de mise à jour des pages.

D' ailleurs, qui n' a pas observé que le passage des crawler google se fait de plus en plus rare lorsque les pages ne sont pas mises à jour pendant un certain temps ? les sites "connus" ont les moyen et la nécessité de toujours proposer un contenu nouveau, actuel etc. C est donc ca qui détermine le rafraichissement rapide des caches. les sites d' infos sont crawler hyper souvent et il n est pas rare de voir des caches mis a jours dans les minutes souvent la mise en ligne d' un nouveau contenu.
Haut
Messages: 4815

Enregistré le: 21 Sep 2008

Message le Jeu Avr 23, 2009 11:28

la preuve: il n'y a qu'à regarder la vitesse d'apparition ds GG des pages de WRI. En quelques minutes cela se fait...

Concernant la taille de l'index je en suis pas d'accord: une grosse capacité est un critère absolument essentiel: le ranking est censé proposé les meilleurs sites en premier... encore faut-il au préalable les avoir analysé (et donc indexé...).
Haut
Messages: 9959

Enregistré le: 5 Mar 2003

Message le Jeu Avr 23, 2009 18:03

Cer n est pas en contradiction avec ce que j ai dit. Si google est capable de ne rafraichir que ce qui doit être rafraichi (c' est à dire uniquement les pages qui ont été modifiées), alors il peut avoir un index important tout en étant capable de classer les meilleures réponses devant sur la base d' un index "non obsolète".
Haut
Messages: 1323

Enregistré le: 1 Nov 2006

Message le Jeu Avr 23, 2009 23:30

Il y a une possibilité peut-être aussi pour que Exalead rafraichisse plus rapidement son index pour les pages qui sont les plus demandés dans ses résultats. Je crois avoir remarqué ça au moins pour les vignettes.
Haut
Messages: 9959

Enregistré le: 5 Mar 2003

Message le Ven Avr 24, 2009 9:14

Quoiqu'il en soit, je ne vois pas l' intérêt de crawler rafraichir des caches qui n' en n'ont pas la nécessité car provenant de pages non mises à jour. L' inconvénient du "système google" se fait sentir dans les cas de pages qui ne sont pas actualisée pendant un moment, ne reçoivent plus ou peu la visites des crawler et doivent patienter un bon moment lorsque le contenu change "enfin".

Quelle est la taille de l' index d' Exalead ?
Haut
Messages: 1323

Enregistré le: 1 Nov 2006

Message le Ven Avr 24, 2009 15:08

herveG a écrit:[...]

Quelle est la taille de l' index d' Exalead ?

Actuellement 8 milliard de pages (8 021 315 419).

Le chiffre exacte est toujours indiqué tout en bas de la page d'accueil du moteur : http://www.exalead.com/search/results?q=

C'est environ la taille de l'index de Google en 2005 et un peu moins de la moitié de celui de Yahoo la même année (mais pour Yahoo, je ne suis pas sûre)
Haut