Http://www.almaden.ibm.com/cs/crawler

Olivier Duffez (admin)
Membre du personnel
Quelqu'un a-t-il aussi des visites régulières de http://www.almaden.ibm.com/cs/crawler ?
Le problème est qu'il essaie de lire des pages en tronquant l'URL, ce qui provoque des erreurs 404...
Ex:
Code:
/forums/viewtopic_
/forums/vie
/googles
C'est donc coupé n'importe où dans l'URL !!!
 
WRInaute passionné
Cela fait quelques jours qu'il passe chez moi et il a dû prendre une centaine de pages en tout. Pas d'erreur 404 ni d'URL tronquée...

Dan
 
Olivier Duffez (admin)
Membre du personnel
question subsidiaire : quel moteur l'utilise ? ce moteur nous envoie-t-il des visiteurs ? si c'est non, vous voyez à quoi je pense :roll:
 
WRInaute discret
Il passe régulièrement sur mon site.
Ca a l'air d'être un truc à IBM, mais impossible de savoir a quoi ils s'en servent.
Ils ont bien un moteur sur leur site, mais on ne peut chercher qu'a l'intérieur des sites IBM, donc je en vois pas l'intéret pour eux d'aller crawler le web.

A moins qu'il ne s'agisse d'un projet secret pour un futur moteur de recherche, comme l'a fait Iliad avec Dir.com et son crawler Pompos: le crawler passait bien avant que le moteur Dir.com soit en ligne...

IBM nous préparerait-il un gros coup?
 
WRInaute passionné
Almaden est le centre de recherche d'IBM.
Il n'est pas impossible qu'un projet "secret" soit en cours. Perso, je le laisse faire parce qu'IBM c'est tout de même "gros budget et Cie" et que cela pourrait aboutir sur qqch de bien. Tant qu'à faire... cela ne prend pas beaucoup de ressources.

Dan
 
WRInaute occasionnel
Almaden m'a visité ce soir : 6 pages en 12 minutes.
Il ne risque pas de surcharger mon serveur à cette cadence, mais il va lui falloir longtemps avant qu'il ait tout visité !
Je vais le laisser faire, et on verra bien si ça m'amène quelques visiteurs un jour.

Jocelyn
 
WRInaute occasionnel
Ce crawler existe depuis un certains temps déjàpour ne pas dire un temps certains.

Mais même sur d'autres sites spécialisés on ne peut trouver plus d'infos sur celui ci hormis la page du crawler.
 
Discussions similaires
Haut