Grub - Looksmart crawling distribué
16 messages
• Page 1 sur 2 • 1, 2
Consultez la formation au REFERENCEMENT naturel Google de WebRankInfo / Ranking Metrics
-

vanillefraise - WRInaute occasionnel

- Messages: 327
- Inscription: 29 Nov 2002
Grub - Looksmart crawling distribué
Bonjour,
Certains d'entre vous ont-ils entendu parler où participent-ils à Grub, un projet censé accélérer et améliorer le crawling en le distribuant sur les machines de clients qui téléchargent un logiciel. Le projet appartient à Looksmart.
Qu'en pensez-vous ?
Certains d'entre vous ont-ils entendu parler où participent-ils à Grub, un projet censé accélérer et améliorer le crawling en le distribuant sur les machines de clients qui téléchargent un logiciel. Le projet appartient à Looksmart.
Qu'en pensez-vous ?
-

WebRankInfo - Administrateur du site

- Messages: 19415
- Inscription: 19 Avr 2002
où peut-on tester le moteur de recherche ? je ne parle pas de les aider, je veux faire des recherches...
- Gautier_Girard
- WRInaute discret

- Messages: 55
- Inscription: 24 Mai 2003
Bonjour,
Nous avons publié un article le 26 mai de cette année à propos de la nouvelle version de Grub.
Nous avions testé la version précédente du programme de Grub, c'est très fun et bien dans l'esprit "communauté"
. L'avantage de mutualiser les ressources, c'est que chacun peut (pouvait ? je ne sais pas avec la nouvelle version...) soumettre des urls de ses sites favoris, et les crawler en priorité.
Un petit bémol personnel, le point faible de Grub est son point fort, et inversement. S'il y a beaucoup d'utilisateurs actifs, alors cela risque d'être génial. S'il y en a peu, l'index retombera en désuétude.
D'après pas mal de professionnels, si Grub plaît à un nombre non négligeable d'utilisateurs-crawlers, il est capable de surpasser la capacité d'indexation de Google himself.
Reste qu'ensuite, si l'algorithme des recherches n'est pas à la hauteur, peu de gens vont utiliser le moteur de recherche, ce qui serait catastrophique puisque le principe d'un moteur est de retourner des résultats pertinents.
Qu'en pensez-vous ?
Bonne journée.
Amicalement,
Gautier.
Nous avons publié un article le 26 mai de cette année à propos de la nouvelle version de Grub.
Nous avions testé la version précédente du programme de Grub, c'est très fun et bien dans l'esprit "communauté"
Un petit bémol personnel, le point faible de Grub est son point fort, et inversement. S'il y a beaucoup d'utilisateurs actifs, alors cela risque d'être génial. S'il y en a peu, l'index retombera en désuétude.
D'après pas mal de professionnels, si Grub plaît à un nombre non négligeable d'utilisateurs-crawlers, il est capable de surpasser la capacité d'indexation de Google himself.
Reste qu'ensuite, si l'algorithme des recherches n'est pas à la hauteur, peu de gens vont utiliser le moteur de recherche, ce qui serait catastrophique puisque le principe d'un moteur est de retourner des résultats pertinents.
Qu'en pensez-vous ?
Bonne journée.
Amicalement,
Gautier.
-

WebRankInfo - Administrateur du site

- Messages: 19415
- Inscription: 19 Avr 2002
je pense aussi que la grosse difficulté est de mettre au point un algorithme pertinent résistant au spamdexing.
- Mirgolth
- WRInaute impliqué

- Messages: 622
- Inscription: 14 Oct 2002
Gautier_Girard a écrit:D'après pas mal de professionnels, si Grub plaît à un nombre non négligeable d'utilisateurs-crawlers, il est capable de surpasser la capacité d'indexation de Google himself.
Je ne pense pas que le plus difficile soir de crawler des milliards de pages un peu de bande passante et le tour est joué en quelques jours. Par contre, là ou c'est beaucoup plus compliqué c'est de faire rapidement les recherches dans la base de donnée et d'avoir des indexes très efficaces et ça le fait d'avoir un réseaux de clients distribués n'y change rien...
On voit bien que google à atteind un pallier et essayes d'exclure un maximum de pages (id dans l'url, viewprofiles, etc...) pour que le nombre de page indexés n'explose pas et les temps de recherche aussi.
Webrankinfo a écrit:Je pense aussi que la grosse difficulté est de mettre au point un algorithme pertinent résistant au spamdexing
Perso, j'ai peur qu'on analyse le protocole entre le client et l'index pour référencer des pages comme ayant tous les mots du dictionnaires ou des trucs de ce genre... Le fait qu'on puisse crawler soi même son site très fréquement n'est pas un soit un gros problème pour le spamdexing.
Mirgolth
-

WebRankInfo - Administrateur du site

- Messages: 19415
- Inscription: 19 Avr 2002
par spamdexing je ne parlais pas de la spécificité de Grub mais des moteurs en général.
Pour que Grub ait du succès, il est nécessaire que la partie interrogation de l'index soit performante.
Pour que Grub ait du succès, il est nécessaire que la partie interrogation de l'index soit performante.
- Gautier_Girard
- WRInaute discret

- Messages: 55
- Inscription: 24 Mai 2003
Bonsoir,
Oui, c'est ce que j'évoquais en fin de message et qu'Olivier a précisé en soulignant le problème du spamdexing.
Amicalement,
Gautier.
Mirgolth a écrit:Je ne pense pas que le plus difficile soir de crawler des milliards de pages
[...] de faire rapidement les recherches dans la base de donnée et d'avoir des indexes très efficaces et ça le fait d'avoir un réseaux de clients distribués n'y change rien...
[...] Le fait qu'on puisse crawler soi même son site très fréquement n'est pas un soit un gros problème pour le spamdexing.
Oui, c'est ce que j'évoquais en fin de message et qu'Olivier a précisé en soulignant le problème du spamdexing.
Amicalement,
Gautier.
- Eservice
- WRInaute passionné

- Messages: 1463
- Inscription: 18 Sep 2002
Bonsoir, pour que la recherche soit satisfaisante il faut qu'elle soit pertinente et rapide.
Plusieurs critères entrent en jeu : la capacité d'indexation, la lutte contre le spamdexing et autres sélections, la finesse des algorithmes de classement et de recherche, la taille de la base et la puissance machine.
La taille de la base est le problème le plus difficile : même les algo les plus fins finissent par être dépassés à partir d'une certaine valeur, la taille critique du système. On peut ajouter de la puissance matérielle mais c'est reporter le problème à plus tard.
A quoi bon sortir 5.000.000 de résultats quand les internautes ne visitent au maximum que les 30 premiers ?
La forte indexation des moteurs sur les annuaires n'est jamais réellement utilisée en pratique : un cas typique de sur-spécification en somme.
Plusieurs critères entrent en jeu : la capacité d'indexation, la lutte contre le spamdexing et autres sélections, la finesse des algorithmes de classement et de recherche, la taille de la base et la puissance machine.
La taille de la base est le problème le plus difficile : même les algo les plus fins finissent par être dépassés à partir d'une certaine valeur, la taille critique du système. On peut ajouter de la puissance matérielle mais c'est reporter le problème à plus tard.
A quoi bon sortir 5.000.000 de résultats quand les internautes ne visitent au maximum que les 30 premiers ?
La forte indexation des moteurs sur les annuaires n'est jamais réellement utilisée en pratique : un cas typique de sur-spécification en somme.
-

vanillefraise - WRInaute occasionnel

- Messages: 327
- Inscription: 29 Nov 2002
En fait, je pense aussi qu'un des problèmes (mis à part le spamindexing) est qu'on fait tourner sa machine à l'oeil pour que looksmart améliore son index et se fasse des sous ! C'est un peu fort !
Je trouvais quand même l'idée intéressante, et je me demandais s'il existait d'autres projets semblables où les données serviraient à alimenter un index "libre" d'utilisation.
Je trouvais quand même l'idée intéressante, et je me demandais s'il existait d'autres projets semblables où les données serviraient à alimenter un index "libre" d'utilisation.
-

Gilbert Wayenborgh - WRInaute passionné

- Messages: 1004
- Inscription: 16 Déc 2002
Eservice a écrit:Bonsoir, pour que la recherche soit satisfaisante il faut qu'elle soit pertinente et rapide.
Plusieurs critères entrent en jeu : la capacité d'indexation, la lutte contre le spamdexing et autres sélections, la finesse des algorithmes de classement et de recherche, la taille de la base et la puissance machine.
La taille de la base est le problème le plus difficile : même les algo les plus fins finissent par être dépassés à partir d'une certaine valeur, la taille critique du système. On peut ajouter de la puissance matérielle mais c'est reporter le problème à plus tard.
A quoi bon sortir 5.000.000 de résultats quand les internautes ne visitent au maximum que les 30 premiers ?
La forte indexation des moteurs sur les annuaires n'est jamais réellement utilisée en pratique : un cas typique de sur-spécification en somme.
Bonsoir,
fallait bien que je me fasse voir sur ce sujet...
L'ensemble des facteurs que tu viens d'énumérer je les ai vécu, donc rien à redire dessus.
Une base de 500.000 sites n'est pas pertinente par rapport à une base de 5.000.000 sites.
La puissance maschine... elle joue un role important dans son ensemble et ce à tous les niveau de pieces : memoire, disque, cpu, etc...
La bande passante, est primordiale pour l'indexation, par contre moins importante pour la recherche.
Quant à la théorie de limite que google semble avoir atteint, j'y crois assez fortement, mais en terme de communication c'est toujours plus "sexy" d'annoncer 3.000.000.000 de pages que 5.000.000. Quand à l'utilisateur... il ne dépasse pas les 30 urls même si l'outil peut fournir 100.000.000 pages de résultats.
Voila ma pensé sur le sujet... je vais retourner de ce pas sur mon index, et lui dire d'afficher 4.000.000.000 de pages... de toute manière qui peut vérifier...
- Eservice
- WRInaute passionné

- Messages: 1463
- Inscription: 18 Sep 2002
Bonjour,
Si c'est pour sortir 10 fois plus de résultats, je ne crois pas que cela soit déterminant pour la satisfaction de l'internaute.

Gilbert Wayenborgh a écrit:La bande passante, est primordiale pour l'indexation, par contre moins importante pour la recherche.
Si on part du principe que le spectre de requêtes servies sera 10 fois plus large, je suis d'accord.Gilbert Wayenborgh a écrit:Une base de 500.000 sites n'est pas pertinente par rapport à une base de 5.000.000 sites.
Si c'est pour sortir 10 fois plus de résultats, je ne crois pas que cela soit déterminant pour la satisfaction de l'internaute.
je vois le genreGilbert Wayenborgh a écrit: je vais retourner de ce pas sur mon index, et lui dire d'afficher 4.000.000.000 de pages... de toute manière qui peut vérifier...je blague.
16 messages
• Page 1 sur 2 • 1, 2
Formation recommandée sur ce thème :
Formation REFERENCEMENT naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.
Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.
Lectures recommandées sur ce thème :
- Help : inscription dans Looksmart, Looksmart UK et Askjeeves
- Qu'est ce que GRUB?
- Robot Grub-client
- looksmart
- Fichier log et Grub qui apparait...
- Impossible de bloquer LookSmart !
- PageRank non distribué
- Ixquick, LookSmart et Inktomi
- sv-crawlfw3.looksmart.com = c'est quoi ça ?
- PR non distribué sur pages dynamiques
- Agent Web Ranking v.2.6.2 s'ouvre à l'Asie - 09-05-2005
- Configurer des nouveaux moteurs dans Google Analytics - 12-06-2007
- Google indexe parfois les formulaires (balise - 14-04-2008
- Wikia Search sort en version alpha : premières impressions - 07-01-2008
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités
