Visites suspectes ? Jakarta Commons-HttpClient/3.0-rc3

Nouveau WRInaute
Bonjour,
J'ai depuis quelques jours, des visites d'un robot (je pense) qui proviennent d'une tranche d'adresses. Seules les pages php sont visités (pas de hit sur les images ). Et les paramètres dans les URI semble être recomposés avec des erreurs sur l'interprétation des caractères spéciaux ( & transformé en amp ). La même URI peut être demandée plusieurs fois à quelques minutes d'intervalle.

Code:
Info DNS des visteurs :
Meaningful Machines INAP-NYM-MEANMACHINE-0652 (NET-64-94-163-128-1) 
                                  64.94.163.128 - 64.94.163.159

Agent : "Jakarta Commons-HttpClient/3.0-rc3"
Dans les info DNS, j'ai donné la tranche IP, car j'ai effectivement la visite de chaque adresse de cette tranche !

Avez vous une idée sur ce qui se cache derrrière tout ça ?
 
Nouveau WRInaute
En effet la signature du robot présumé indique qu'il utilise un developpement employant l'API common-HttpClient de Jakarta. Et sans vouloir troller, il ne doit pas être developpé sous Windows (c'est déjà ça).
Mais à part l'indication de la technologie utilisé et les traces dans les log assez discrètes, je ne sais rien d'autre sur ce visiteur, ni sur son but.
N'avez vous pas remarqué sa précence sur vos sites ?
 
Nouveau WRInaute
Bon en suivant la piste j'arrive à : http://www.meaningfulmachines.com/index.htm

Une boîte qui developpe des moteurs de recherche en langage naturel, et des outils de traduction :
Based on a core technology that understands natural language, Meaningful Machines is opening new avenues in text mining, search and retrieval, machine translation, natural language interfaces and artificial intelligence.

Pour info ils semblent utiliser xcat sur solaris x86, un outil de gestion de cluster.

Mais rien sur l'utilisation des données, leur méthode de collecte, leur exploitation...

Apparament mon site leur plait bien, avec plus de 8Mo de texte chaque jour, il auront de quoi chercher !
 
Discussions similaires
Haut