améliorer la détection des robots
5 messages • Page 1 sur 1
-

WebRankInfo - Administrateur du site

- Messages: 15883
- Inscription: Ven Avr 19, 2002 19:51
améliorer la détection des robots
en analysant mes logs je me suis rendu compte que Inktomi venait plus souvent que ce que m'indique GoogleStats.
après petite enquête, il s'avère qu'il utilise plusieurs adresses IP commençant par 66.196 (par exemple 66.196.81, 66.196.73, 66.196.72 et j'en passe).
il semblerait que la plage soit 66.196.64.0 - 66.196.127.255
pour l'instant GoogleStats permet de détecter par l'adresse IP mais en comparant le début de l'adresse. Il faudrait donc améliorer le système pour pouvoir définir des plages de valeurs comme ci-dessus.
qu'en pensez-vous ?
après petite enquête, il s'avère qu'il utilise plusieurs adresses IP commençant par 66.196 (par exemple 66.196.81, 66.196.73, 66.196.72 et j'en passe).
il semblerait que la plage soit 66.196.64.0 - 66.196.127.255
pour l'instant GoogleStats permet de détecter par l'adresse IP mais en comparant le début de l'adresse. Il faudrait donc améliorer le système pour pouvoir définir des plages de valeurs comme ci-dessus.
qu'en pensez-vous ?
Salut Olivier, j'ai détecté une (grosse) erreur de détection des bots :
Tu pourras remarquer que l'adresse IP de proxad est reconnu comme étant celle de GoogleBot !!! Tout simplement parce qu'elle contient "64.68.", mais pas au début ;o)
Je pourrais m'y mettre ce WE si besoin, là je suis encore au boulot.
Sinon pour ton post : pourquoi ne pas mêler la détection IP et la détection du nom du Bot ? Autrement dit il faudrait avoir un des 2 pour que ce soit OK, ou alors l'un et l'autre en même temps.
Sinon pourquoi ne pas faire une liste en .txt sur WRI qui listerait tous les robots sous forme de requêtes SQL ? Ainsi avec cette liste on mettra nos bases de données à jour assez souvent. D'ailleurs pour la générer, on pourrait faire tourner un GS spécial, qui récupère les IP des Bots détectés par le nom uniquement => on vérifie s'ils sont OK en testant les IP => on les ajoute ou pas à la liste.
Voilà !
- Code: Tout sélectionner
1 / 200 07:46:0 1 64.68.82.28 crawler10.googlebot.com
2 /guest_bottom.html 200 13:21:0 4 82.64.68.81 lns-th2-5-82-64-68-81.adsl.proxad.net
Tu pourras remarquer que l'adresse IP de proxad est reconnu comme étant celle de GoogleBot !!! Tout simplement parce qu'elle contient "64.68.", mais pas au début ;o)
Je pourrais m'y mettre ce WE si besoin, là je suis encore au boulot.
Sinon pour ton post : pourquoi ne pas mêler la détection IP et la détection du nom du Bot ? Autrement dit il faudrait avoir un des 2 pour que ce soit OK, ou alors l'un et l'autre en même temps.
Sinon pourquoi ne pas faire une liste en .txt sur WRI qui listerait tous les robots sous forme de requêtes SQL ? Ainsi avec cette liste on mettra nos bases de données à jour assez souvent. D'ailleurs pour la générer, on pourrait faire tourner un GS spécial, qui récupère les IP des Bots détectés par le nom uniquement => on vérifie s'ils sont OK en testant les IP => on les ajoute ou pas à la liste.
Voilà !
-

WebRankInfo - Administrateur du site

- Messages: 15883
- Inscription: Ven Avr 19, 2002 19:51
effectivement la détection est mauvaise... mea culpa !
par contre je reste persuadé que la détection par le user agent n'est pas assez rigoureuse
il faut vraiment faire une détection par plage d'adresses IP. Si qqn a une solution simple, je suis preneur. Il faut convenir d'une façon de définir les plages d'adresses possibles d'un robot.
ensuite pour ta 2eme idée, c'est déjà prévu (mais pas encore développé...). je vais aussi prévoir un formulaire pour que les internautes puissent proposer des nouveaux robots à prendre en compte
on peut aussi envisager (on en a déjà parlé) une fonction dans GoogleStats qui vérifie (en allant interroger le site de GoogleStats) s'il existe des nouveaux robots qu'on n'a pas encore sur son install.
pour la détection automatique des robots, j'ai ma petite idée... je m'en occupe et verrai comment la prendre en compte dans GoogleStats.
Bref il y a du boulot, j'accepte volontiers quelques contributions !
par contre je reste persuadé que la détection par le user agent n'est pas assez rigoureuse
il faut vraiment faire une détection par plage d'adresses IP. Si qqn a une solution simple, je suis preneur. Il faut convenir d'une façon de définir les plages d'adresses possibles d'un robot.
ensuite pour ta 2eme idée, c'est déjà prévu (mais pas encore développé...). je vais aussi prévoir un formulaire pour que les internautes puissent proposer des nouveaux robots à prendre en compte
on peut aussi envisager (on en a déjà parlé) une fonction dans GoogleStats qui vérifie (en allant interroger le site de GoogleStats) s'il existe des nouveaux robots qu'on n'a pas encore sur son install.
pour la détection automatique des robots, j'ai ma petite idée... je m'en occupe et verrai comment la prendre en compte dans GoogleStats.
Bref il y a du boulot, j'accepte volontiers quelques contributions !
5 messages • Page 1 sur 1
Lectures recommandées sur ce thème :
- Sortie de GoogleStats v2.01
- Sortie officielle de GoogleStats v2.0 !
- WebRankInfo
- Les crawlers de Yahoo!
- Du nouveau dans le Centre pour Webmasters de Live Search
- Les robots MSNbot de Live Search
- Déclarer son fichier sitemap dans le fichier robots.txt
- Le système de crawl de Google en 2008
- Obtenir des liens pour améliorer son référencement
- Référencement : le problème des sessions des pages PHP
- Detection robots SPAM
- pas de détection des robots
- [Robots] Tests , detection , indexation.
- Detection des robots / htaccess
- Site modifié par detection de robots
- Détection des robots Almaden et Pompos
- detection des robots sur pages htm?
- robots.txt et balise meta robots, incompatibilité ?
- Interdire certains robots ? Comment ? Quels robots ?
- Détection du navigateur + Reroutage
- petites annonces et détection IP.
- Détection des bots
- détection fermeture navigateur ?
- Pb détection ndd blacklisté
- Robots utiles et robots inutiles
- Détection de pages similaires
Cet outil vous permet de calculer la similarité entre 2 pages web. L'algorithme utilisé repose sur l'analyse des occurrences des mots (mais pas sur leur positionnement dans les pages). Google utilise cette notion à certains endroits dans son algorithme, mais de façon bien plus évoluée que ce petit outil... Avoir des pages trop similaires peut entraîner des problèmes d'indexation... Cet outil vous permettra peut-être de résoudre certains problèmes de contenus dupliqués. - Test de lien (type de redirection)
Cet outil vous permet de tester la validité d'un lien pour le référencement. Il vous indique la nature du lien (lien en dur, redirection bien gérée par les moteurs ou redirection mal gérée par les moteurs).
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités





le forum