Exclure les robots des fichiers de log IIS
7 messages
• Page 1 sur 1
Consultez la formation à Google Analytics de WebRankInfo / Ranking Metrics
- echaize
- Nouveau WRInaute

- Messages: 3
- Inscription: 20 Jan 2005
Exclure les robots des fichiers de log IIS
Comment peut-on faire pour exclure des logs d'un serveur Web (en l'occurrence IIS6) les requêtes effectués par les robots ?
J'utilise LogAnalyzer du SDK IIS qui permet de faire des requêtes avec des filtres mais je ne sais pas sur quel champ des log basée ma requête pour exclure les robots.
L'objectif étant d'avoir des stats de fréquentation sans les requêtes des robots !
J'utilise LogAnalyzer du SDK IIS qui permet de faire des requêtes avec des filtres mais je ne sais pas sur quel champ des log basée ma requête pour exclure les robots.
L'objectif étant d'avoir des stats de fréquentation sans les requêtes des robots !
- echaize
- Nouveau WRInaute

- Messages: 3
- Inscription: 20 Jan 2005
iconso a écrit:Il faut mettre ton filtre sur le champ User-Agent. Une autre méthode pourrait être de commencer par extraire une liste d'adresses IP et/ou User-Agent ayant accédé à ton robots.txt, puis de les exclure de tes analyses.
Fred
Où puis-je trouve une liste exhaustive des user-agent envoyés par les principaux robots ?
Merci
- iconso
- WRInaute occasionnel

- Messages: 446
- Inscription: 8 Avr 2003
Une liste assez complète : http://www.psychedelix.com/agents.html et http://www.robotstxt.org/wc/active/html/index.html
Les principaux : http://www.actulab.com/identification-des-robots.php (et tu as des liens vers d'autres listes)
Fred
Les principaux : http://www.actulab.com/identification-des-robots.php (et tu as des liens vers d'autres listes)
Fred
- echaize
- Nouveau WRInaute

- Messages: 3
- Inscription: 20 Jan 2005
Exemple de requête avec le logparser du SDK IIS6
Voici la requête que j'ai faite pour exclure les robots (certains) de mes fichiers de log IIS6 :
logparser "SELECT * FROM C:\WINDOWS\system32\LogFiles\Easimmo\W3SVC1045425633\ex0501.log TO GetAllExceptInternalAndRobots.txt WHERE INDEX_OF(cs(User-Agent) , 'Googlebot') < 0 and INDEX_OF(cs(User-Agent) , 'msnbot') < 0 and INDEX_OF(cs(User-Agent) , 'Slurp') < 0 and INDEX_OF(cs(User-Agent) , 'InnerpriseBot') < 0 and INDEX_OF(cs(User-Agent) , 'Crawl')<0 and INDEX_OF(cs(User-Agent) , 'Mediapartners-Google') < 0 and INDEX_OF(cs(User-Agent) , '+Ask+Jeeves/Teoma') < 0 and INDEX_OF(cs(User-Agent) , 'SurveyBot') < 0 and INDEX_OF(cs(User-Agent) , 'psbot') < 0 and INDEX_OF(cs(User-Agent) , 'moteur+IDF.net') < 0 and INDEX_OF(cs(User-Agent) , 'WISEnutbot') < 0 and INDEX_OF(cs(User-Agent) , 'NG/2.0') < 0 and INDEX_OF(cs(User-Agent) , 'PHP/') < 0 and INDEX_OF(cs(User-Agent) , 'libwww-perl') < 0 and INDEX_OF(cs(User-Agent) , 'Python') < 0 and sc-status <> 404 ORDER BY date, time" -o:W3C
Le SDK IIS6 est disponible à : http://www.microsoft.com/downloads/deta ... laylang=en
logparser "SELECT * FROM C:\WINDOWS\system32\LogFiles\Easimmo\W3SVC1045425633\ex0501.log TO GetAllExceptInternalAndRobots.txt WHERE INDEX_OF(cs(User-Agent) , 'Googlebot') < 0 and INDEX_OF(cs(User-Agent) , 'msnbot') < 0 and INDEX_OF(cs(User-Agent) , 'Slurp') < 0 and INDEX_OF(cs(User-Agent) , 'InnerpriseBot') < 0 and INDEX_OF(cs(User-Agent) , 'Crawl')<0 and INDEX_OF(cs(User-Agent) , 'Mediapartners-Google') < 0 and INDEX_OF(cs(User-Agent) , '+Ask+Jeeves/Teoma') < 0 and INDEX_OF(cs(User-Agent) , 'SurveyBot') < 0 and INDEX_OF(cs(User-Agent) , 'psbot') < 0 and INDEX_OF(cs(User-Agent) , 'moteur+IDF.net') < 0 and INDEX_OF(cs(User-Agent) , 'WISEnutbot') < 0 and INDEX_OF(cs(User-Agent) , 'NG/2.0') < 0 and INDEX_OF(cs(User-Agent) , 'PHP/') < 0 and INDEX_OF(cs(User-Agent) , 'libwww-perl') < 0 and INDEX_OF(cs(User-Agent) , 'Python') < 0 and sc-status <> 404 ORDER BY date, time" -o:W3C
Le SDK IIS6 est disponible à : http://www.microsoft.com/downloads/deta ... laylang=en
- stephanelhomme
- Nouveau WRInaute

- Messages: 6
- Inscription: 26 Avr 2005
Bonjour,
Les robots ne sont pas obligés d'utiliser un User Agent contenant leur nom.... ils peuvent utiliser un UA vide par exemple pour tromper tout le monde
Y a t il une autre methode pour les detecter ?
Merci de votre aide
Stéphane
Les robots ne sont pas obligés d'utiliser un User Agent contenant leur nom.... ils peuvent utiliser un UA vide par exemple pour tromper tout le monde
Y a t il une autre methode pour les detecter ?
Merci de votre aide
Stéphane
7 messages
• Page 1 sur 1
Formation recommandée sur ce thème :
Formation Google Analytics : en 2 jours, apprenez comment exploiter l'essentiel des possibilités de l'outil de mesure d'audience de Google. Formation animée par les experts Google Analytics de Ranking Metrics.
Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.
Lectures recommandées sur ce thème :
- Fichiers Log
- Javascript + fichiers de log
- 2 fichiers robots.txt -> deux fichiers sitemap. C'est bon?
- [dedie] Supprimer log de access.log et error.log apache
- Problème de date des fichiers log et awstat
- Quel logiciel pour analyser fichiers log ?
- Fichiers Log pour répérer le passage de google
- Supprimer des fichiers LOG indexés de l'index de Google ?
- Robots : exclure certains mots?
- Exclure les robots indésirable : 2 méthodes
Consultez la description détaillée des produits ou services de Google suivants : Googlebot
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités


