Messages: 622

Enregistré le: 14 Oct 2002

Message le Mar Juil 29, 2003 23:54

Je viens d'avoir la visite de Exalead NG/MimeLive Client (convert/http/0.120).
Avez vous une idée de son but par rapport au NG/1.0 de Exalead ?

Je n'ai rien trouvé sur google mis à part que ce robots existe en plusieurs version. J'ai aussi essayé de chercher sur AOL.fr/Exalead.com sans succès.

Mirgolth
Haut
8 Réponses
Messages: 11371

Enregistré le: 14 Oct 2002

Message le Mer Juil 30, 2003 9:56

j'ai pas la réponse mais exalead aspire 1 page toutes les 2 secondes.. bof bof
Haut
Messages: 622

Enregistré le: 14 Oct 2002

Message le Ven Aoû 01, 2003 8:25

mahefarivony a écrit:j'ai pas la réponse mais exalead aspire 1 page toutes les 2 secondes.. bof bof

Mais comme AOL.fr génère pas mal de traffic, on est tolérant...

Ca va peut être changé si c'est un nouveau bot qu'ils testent. En tout cas c'est un crawler en phase de developpement car les numéros de version sont faibles et s'enchainent très vite :
Code: Tout sélectionner
Exalead NG/MimeLive Client (convert/http/0.126)

Mirgolth
Haut
Messages: 446

Enregistré le: 8 Avr 2003

Message le Mer Aoû 13, 2003 15:52

Mirgolth a écrit: En tout cas c'est un crawler en phase de developpement car les numéros de version sont faibles et s'enchainent très vite

Oui j'espère pour eux qu'il est en version de developpement, parce qu'il essaye de pomper 2 ou 3 pages simultanément, avec un temps de repos entre chaque groupe de page qui varie entre 2 et 4 secondes...
Il fait ca avec des groupes d'une vingtaine de pages par session, et le pire c'est qu'il vient chercher ces pages toutes les 30 minutes environ (tout le temps les memes...) sans tenir compte du Last-Modified.
Taille maxi de la page indexable : environ 63ko

Code: Tout sélectionner
Exalead+NG/MimeLive+Client+(convert/http/0.141)

Fred
Haut
Messages: 3410

Enregistré le: 28 Nov 2002

Message le Dim Sep 14, 2003 8:34

Code: Tout sélectionner
Exalead NG/MimeLive Client (convert/http/0.143)

Toujours aussi gourmand et à plus de 20 pages par minutes, je ne le laisse pas tourner plus longtemps.
kmacleod
Haut
Messages: 723

Enregistré le: 10 Jan 2003

Message le Ven Sep 19, 2003 13:48

En fait, des nouveaux moteurs, depuis que je suis a WRI, j'en vois des tonnnnes ; des jeunes, des etudiants et, aussi, parfois, des personnes serieuses.

Se lancer dans le moteur ne doit pas etre simple et, pour moi, avec certains sites annuaires, je trouve ces essais plus interessants que certaines autres modes sur le web...

Et puis, qu'il soit reellement nouveau et independant, ou qu'il utilise un autre moteur en sous-main, du moment qu'un moteur m'apporte des visiteurs... Je le salue et je le cite (page moteurs de la NSC que je ne vais pas URLer dans tous les topics). De temps en temps, je verifie le lien, puis s'il me connait toujours. Dans le cas contraire, j'efface...

Mais ca, c'est ma cuisine interne. Ce que j'exprime par la, c'est que je ne comprends pas trop ce salon. Je veux dire : laisser les vivre... Tant que ce ne sont pas des horreures comme mentionnees ailleurs.
Haut
Messages: 3410

Enregistré le: 28 Nov 2002

Message le Mer Sep 24, 2003 23:21

MagiX a écrit:Je veux dire : laisser les vivre... Tant que ce ne sont pas des horreures comme mentionnees ailleurs.

Quelle est la définition de l'horreur : chez moi c'est 20 pages par minutes, sinon out
Google semble respecter cette regle, les autres moteurs aussi, même Fast, même Deepindex ...
Haut
Messages: 11371

Enregistré le: 14 Oct 2002

Message le Jeu Sep 25, 2003 7:15

Kmacleod a écrit:Google semble respecter cette regle..


hum... j'ai eu vent de quelques cas a 5 page a la seconde :twisted:
bon, il peut aller jusqu'a 10, je ne m'en plaindrai pas :wink:
Haut
Messages: 614

Enregistré le: 18 Avr 2003

Message le Lun Avr 25, 2005 15:35

La sous-version du bot a évolué, mais ce n'est toujours pas au point :
Exabot NG/MimeLive Client (convert/http/0.173)

Ce bot récupère tous les PDF, mais pour chauque PDF il effectue deux fois la même requête dans la seconde, et seule une des deux requetes télécharge entièrement le pdf, l'autre s'arrête en cours de route.

Ce bot ne gère ni gzip ni les retours 304, il est donc assez consomateur en bande passante.
Haut