améliorer la détection des robots
5 messages
• Page 1 sur 1
-

WebRankInfo - Administrateur du site

- Messages: 18963
- Inscription: 19 Avr 2002
améliorer la détection des robots
en analysant mes logs je me suis rendu compte que Inktomi venait plus souvent que ce que m'indique GoogleStats.
après petite enquête, il s'avère qu'il utilise plusieurs adresses IP commençant par 66.196 (par exemple 66.196.81, 66.196.73, 66.196.72 et j'en passe).
il semblerait que la plage soit 66.196.64.0 - 66.196.127.255
pour l'instant GoogleStats permet de détecter par l'adresse IP mais en comparant le début de l'adresse. Il faudrait donc améliorer le système pour pouvoir définir des plages de valeurs comme ci-dessus.
qu'en pensez-vous ?
après petite enquête, il s'avère qu'il utilise plusieurs adresses IP commençant par 66.196 (par exemple 66.196.81, 66.196.73, 66.196.72 et j'en passe).
il semblerait que la plage soit 66.196.64.0 - 66.196.127.255
pour l'instant GoogleStats permet de détecter par l'adresse IP mais en comparant le début de l'adresse. Il faudrait donc améliorer le système pour pouvoir définir des plages de valeurs comme ci-dessus.
qu'en pensez-vous ?
-

Yvan - WRInaute occasionnel

- Messages: 295
- Inscription: 6 Nov 2002
Salut Olivier, j'ai détecté une (grosse) erreur de détection des bots :
Tu pourras remarquer que l'adresse IP de proxad est reconnu comme étant celle de GoogleBot !!! Tout simplement parce qu'elle contient "64.68.", mais pas au début ;o)
Je pourrais m'y mettre ce WE si besoin, là je suis encore au boulot.
Sinon pour ton post : pourquoi ne pas mêler la détection IP et la détection du nom du Bot ? Autrement dit il faudrait avoir un des 2 pour que ce soit OK, ou alors l'un et l'autre en même temps.
Sinon pourquoi ne pas faire une liste en .txt sur WRI qui listerait tous les robots sous forme de requêtes SQL ? Ainsi avec cette liste on mettra nos bases de données à jour assez souvent. D'ailleurs pour la générer, on pourrait faire tourner un GS spécial, qui récupère les IP des Bots détectés par le nom uniquement => on vérifie s'ils sont OK en testant les IP => on les ajoute ou pas à la liste.
Voilà !
- Code: Tout sélectionner
1 / 200 07:46:0 1 64.68.82.28 crawler10.googlebot.com
2 /guest_bottom.html 200 13:21:0 4 82.64.68.81 lns-th2-5-82-64-68-81.adsl.proxad.net
Tu pourras remarquer que l'adresse IP de proxad est reconnu comme étant celle de GoogleBot !!! Tout simplement parce qu'elle contient "64.68.", mais pas au début ;o)
Je pourrais m'y mettre ce WE si besoin, là je suis encore au boulot.
Sinon pour ton post : pourquoi ne pas mêler la détection IP et la détection du nom du Bot ? Autrement dit il faudrait avoir un des 2 pour que ce soit OK, ou alors l'un et l'autre en même temps.
Sinon pourquoi ne pas faire une liste en .txt sur WRI qui listerait tous les robots sous forme de requêtes SQL ? Ainsi avec cette liste on mettra nos bases de données à jour assez souvent. D'ailleurs pour la générer, on pourrait faire tourner un GS spécial, qui récupère les IP des Bots détectés par le nom uniquement => on vérifie s'ils sont OK en testant les IP => on les ajoute ou pas à la liste.
Voilà !
-

WebRankInfo - Administrateur du site

- Messages: 18963
- Inscription: 19 Avr 2002
effectivement la détection est mauvaise... mea culpa !
par contre je reste persuadé que la détection par le user agent n'est pas assez rigoureuse
il faut vraiment faire une détection par plage d'adresses IP. Si qqn a une solution simple, je suis preneur. Il faut convenir d'une façon de définir les plages d'adresses possibles d'un robot.
ensuite pour ta 2eme idée, c'est déjà prévu (mais pas encore développé...). je vais aussi prévoir un formulaire pour que les internautes puissent proposer des nouveaux robots à prendre en compte
on peut aussi envisager (on en a déjà parlé) une fonction dans GoogleStats qui vérifie (en allant interroger le site de GoogleStats) s'il existe des nouveaux robots qu'on n'a pas encore sur son install.
pour la détection automatique des robots, j'ai ma petite idée... je m'en occupe et verrai comment la prendre en compte dans GoogleStats.
Bref il y a du boulot, j'accepte volontiers quelques contributions !
par contre je reste persuadé que la détection par le user agent n'est pas assez rigoureuse
il faut vraiment faire une détection par plage d'adresses IP. Si qqn a une solution simple, je suis preneur. Il faut convenir d'une façon de définir les plages d'adresses possibles d'un robot.
ensuite pour ta 2eme idée, c'est déjà prévu (mais pas encore développé...). je vais aussi prévoir un formulaire pour que les internautes puissent proposer des nouveaux robots à prendre en compte
on peut aussi envisager (on en a déjà parlé) une fonction dans GoogleStats qui vérifie (en allant interroger le site de GoogleStats) s'il existe des nouveaux robots qu'on n'a pas encore sur son install.
pour la détection automatique des robots, j'ai ma petite idée... je m'en occupe et verrai comment la prendre en compte dans GoogleStats.
Bref il y a du boulot, j'accepte volontiers quelques contributions !
5 messages
• Page 1 sur 1
Lectures recommandées sur ce thème :
- Sortie de GoogleStats v2.01 - 02-03-2003
- Les crawlers de Yahoo! - 18-03-2004
- Les robots MSNbot de Live Search - 30-11-2006
- Déclarer son fichier sitemap dans le fichier robots.txt - 16-04-2007
- Petit changement pour Slurp (le robot de Yahoo) - 29-03-2007
- Google et Bing avouent protéger certains sites (liste blanche) - 11-03-2011
- AdSense propose le parrainage pour Google Apps - 03-04-2007
- La balise meta NOYDIR de Yahoo - 05-03-2007
- Détection de pages similaires
Cet outil vous permet de calculer la similarité entre 2 pages web. L'algorithme utilisé repose sur l'analyse des occurrences des mots (mais pas sur leur positionnement dans les pages). Google utilise cette notion à certains endroits dans son algorithme, mais de façon bien plus évoluée que ce petit outil... Avoir des pages trop similaires peut entraîner des problèmes d'indexation... Cet outil vous permettra peut-être de résoudre certains problèmes de contenus dupliqués. - Test de lien (type de redirection)
Cet outil vous permet de tester la validité d'un lien pour le référencement. Il vous indique la nature du lien (lien en dur, redirection bien gérée par les moteurs ou redirection mal gérée par les moteurs).
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités


