améliorer la détection des robots


WebRankInfo
Administrateur du site
Administrateur du site
 
Messages: 18963
Inscription: 19 Avr 2002

améliorer la détection des robots

Message le Ven Avr 18, 2003 23:39

en analysant mes logs je me suis rendu compte que Inktomi venait plus souvent que ce que m'indique GoogleStats.
après petite enquête, il s'avère qu'il utilise plusieurs adresses IP commençant par 66.196 (par exemple 66.196.81, 66.196.73, 66.196.72 et j'en passe).
il semblerait que la plage soit 66.196.64.0 - 66.196.127.255

pour l'instant GoogleStats permet de détecter par l'adresse IP mais en comparant le début de l'adresse. Il faudrait donc améliorer le système pour pouvoir définir des plages de valeurs comme ci-dessus.
qu'en pensez-vous ?


Yvan
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 295
Inscription: 6 Nov 2002

Message le Ven Avr 25, 2003 12:13

Salut Olivier, j'ai détecté une (grosse) erreur de détection des bots :
Code: Tout sélectionner
1 / 200 07:46:0 1 64.68.82.28 crawler10.googlebot.com
2 /guest_bottom.html 200 13:21:0 4 82.64.68.81 lns-th2-5-82-64-68-81.adsl.proxad.net

Tu pourras remarquer que l'adresse IP de proxad est reconnu comme étant celle de GoogleBot !!! Tout simplement parce qu'elle contient "64.68.", mais pas au début ;o)

Je pourrais m'y mettre ce WE si besoin, là je suis encore au boulot.

Sinon pour ton post : pourquoi ne pas mêler la détection IP et la détection du nom du Bot ? Autrement dit il faudrait avoir un des 2 pour que ce soit OK, ou alors l'un et l'autre en même temps.

Sinon pourquoi ne pas faire une liste en .txt sur WRI qui listerait tous les robots sous forme de requêtes SQL ? Ainsi avec cette liste on mettra nos bases de données à jour assez souvent. D'ailleurs pour la générer, on pourrait faire tourner un GS spécial, qui récupère les IP des Bots détectés par le nom uniquement => on vérifie s'ils sont OK en testant les IP => on les ajoute ou pas à la liste.

Voilà !


WebRankInfo
Administrateur du site
Administrateur du site
 
Messages: 18963
Inscription: 19 Avr 2002

Message le Ven Avr 25, 2003 12:52

effectivement la détection est mauvaise... mea culpa !
par contre je reste persuadé que la détection par le user agent n'est pas assez rigoureuse
il faut vraiment faire une détection par plage d'adresses IP. Si qqn a une solution simple, je suis preneur. Il faut convenir d'une façon de définir les plages d'adresses possibles d'un robot.

ensuite pour ta 2eme idée, c'est déjà prévu (mais pas encore développé...). je vais aussi prévoir un formulaire pour que les internautes puissent proposer des nouveaux robots à prendre en compte

on peut aussi envisager (on en a déjà parlé) une fonction dans GoogleStats qui vérifie (en allant interroger le site de GoogleStats) s'il existe des nouveaux robots qu'on n'a pas encore sur son install.

pour la détection automatique des robots, j'ai ma petite idée... je m'en occupe et verrai comment la prendre en compte dans GoogleStats.

Bref il y a du boulot, j'accepte volontiers quelques contributions !


Yvan
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 295
Inscription: 6 Nov 2002

Message le Ven Avr 25, 2003 16:44

Ok Olivier, j'attends de voir... Parce que mon site me demande beaucoup de boulot aussi ! Et en plus faut que je me trouve un job... un vrai... Pas webmaster de mon site en tout cas :o)

A plus.


sietjp
WRInaute impliqué
WRInaute impliqué
 
Messages: 624
Inscription: 14 Déc 2003

Message le Jeu Jan 29, 2004 11:53

Bonjour, est ce que la plage d'ip pour inktomi est toujours d'actualité, est ce que d'autres ip d'inktomi ont été détectées?


Si vous avez aimé cette discussion, partagez-la sur vos réseaux sociaux préférés :

Lectures recommandées sur ce thème :

  • Détection de pages similaires
    Cet outil vous permet de calculer la similarité entre 2 pages web. L'algorithme utilisé repose sur l'analyse des occurrences des mots (mais pas sur leur positionnement dans les pages). Google utilise cette notion à certains endroits dans son algorithme, mais de façon bien plus évoluée que ce petit outil... Avoir des pages trop similaires peut entraîner des problèmes d'indexation... Cet outil vous permettra peut-être de résoudre certains problèmes de contenus dupliqués.
  • Test de lien (type de redirection)
    Cet outil vous permet de tester la validité d'un lien pour le référencement. Il vous indique la nature du lien (lien en dur, redirection bien gérée par les moteurs ou redirection mal gérée par les moteurs).


Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités