Exclure les robots des fichiers de log IIS
7 messages • Page 1 sur 1
Consultez la formation à Google Analytics de WebRankInfo / Ranking Metrics
Exclure les robots des fichiers de log IIS
Comment peut-on faire pour exclure des logs d'un serveur Web (en l'occurrence IIS6) les requêtes effectués par les robots ?
J'utilise LogAnalyzer du SDK IIS qui permet de faire des requêtes avec des filtres mais je ne sais pas sur quel champ des log basée ma requête pour exclure les robots.
L'objectif étant d'avoir des stats de fréquentation sans les requêtes des robots !
J'utilise LogAnalyzer du SDK IIS qui permet de faire des requêtes avec des filtres mais je ne sais pas sur quel champ des log basée ma requête pour exclure les robots.
L'objectif étant d'avoir des stats de fréquentation sans les requêtes des robots !
Il faut mettre ton filtre sur le champ User-Agent. Une autre méthode pourrait être de commencer par extraire une liste d'adresses IP et/ou User-Agent ayant accédé à ton robots.txt, puis de les exclure de tes analyses.
Fred
Fred
iconso a écrit:Il faut mettre ton filtre sur le champ User-Agent. Une autre méthode pourrait être de commencer par extraire une liste d'adresses IP et/ou User-Agent ayant accédé à ton robots.txt, puis de les exclure de tes analyses.
Fred
Où puis-je trouve une liste exhaustive des user-agent envoyés par les principaux robots ?
Merci
Une liste assez complète : http://www.psychedelix.com/agents.html et http://www.robotstxt.org/wc/active/html/index.html
Les principaux : http://www.actulab.com/identification-des-robots.php (et tu as des liens vers d'autres listes)
Fred
Les principaux : http://www.actulab.com/identification-des-robots.php (et tu as des liens vers d'autres listes)
Fred
Exemple de requête avec le logparser du SDK IIS6
Voici la requête que j'ai faite pour exclure les robots (certains) de mes fichiers de log IIS6 :
logparser "SELECT * FROM C:\WINDOWS\system32\LogFiles\Easimmo\W3SVC1045425633\ex0501.log TO GetAllExceptInternalAndRobots.txt WHERE INDEX_OF(cs(User-Agent) , 'Googlebot') < 0 and INDEX_OF(cs(User-Agent) , 'msnbot') < 0 and INDEX_OF(cs(User-Agent) , 'Slurp') < 0 and INDEX_OF(cs(User-Agent) , 'InnerpriseBot') < 0 and INDEX_OF(cs(User-Agent) , 'Crawl')<0 and INDEX_OF(cs(User-Agent) , 'Mediapartners-Google') < 0 and INDEX_OF(cs(User-Agent) , '+Ask+Jeeves/Teoma') < 0 and INDEX_OF(cs(User-Agent) , 'SurveyBot') < 0 and INDEX_OF(cs(User-Agent) , 'psbot') < 0 and INDEX_OF(cs(User-Agent) , 'moteur+IDF.net') < 0 and INDEX_OF(cs(User-Agent) , 'WISEnutbot') < 0 and INDEX_OF(cs(User-Agent) , 'NG/2.0') < 0 and INDEX_OF(cs(User-Agent) , 'PHP/') < 0 and INDEX_OF(cs(User-Agent) , 'libwww-perl') < 0 and INDEX_OF(cs(User-Agent) , 'Python') < 0 and sc-status <> 404 ORDER BY date, time" -o:W3C
Le SDK IIS6 est disponible à : http://www.microsoft.com/downloads/deta ... laylang=en
logparser "SELECT * FROM C:\WINDOWS\system32\LogFiles\Easimmo\W3SVC1045425633\ex0501.log TO GetAllExceptInternalAndRobots.txt WHERE INDEX_OF(cs(User-Agent) , 'Googlebot') < 0 and INDEX_OF(cs(User-Agent) , 'msnbot') < 0 and INDEX_OF(cs(User-Agent) , 'Slurp') < 0 and INDEX_OF(cs(User-Agent) , 'InnerpriseBot') < 0 and INDEX_OF(cs(User-Agent) , 'Crawl')<0 and INDEX_OF(cs(User-Agent) , 'Mediapartners-Google') < 0 and INDEX_OF(cs(User-Agent) , '+Ask+Jeeves/Teoma') < 0 and INDEX_OF(cs(User-Agent) , 'SurveyBot') < 0 and INDEX_OF(cs(User-Agent) , 'psbot') < 0 and INDEX_OF(cs(User-Agent) , 'moteur+IDF.net') < 0 and INDEX_OF(cs(User-Agent) , 'WISEnutbot') < 0 and INDEX_OF(cs(User-Agent) , 'NG/2.0') < 0 and INDEX_OF(cs(User-Agent) , 'PHP/') < 0 and INDEX_OF(cs(User-Agent) , 'libwww-perl') < 0 and INDEX_OF(cs(User-Agent) , 'Python') < 0 and sc-status <> 404 ORDER BY date, time" -o:W3C
Le SDK IIS6 est disponible à : http://www.microsoft.com/downloads/deta ... laylang=en
- stephanelhomme
- Nouveau WRInaute
- Messages: 6
- Inscription: Mar Avr 26, 2005 8:00
Bonjour,
Les robots ne sont pas obligés d'utiliser un User Agent contenant leur nom.... ils peuvent utiliser un UA vide par exemple pour tromper tout le monde
Y a t il une autre methode pour les detecter ?
Merci de votre aide
Stéphane
Les robots ne sont pas obligés d'utiliser un User Agent contenant leur nom.... ils peuvent utiliser un UA vide par exemple pour tromper tout le monde
Y a t il une autre methode pour les detecter ?
Merci de votre aide
Stéphane
7 messages • Page 1 sur 1
Formation recommandée sur ce thème :
Formation Google Analytics : en 2 jours, apprenez comment exploiter l'essentiel des possibilités de l'outil de mesure d'audience de Google. Formation animée par Julien Coquet, expert certifié officiellement par Google Analytics.
Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.
Lectures recommandées sur ce thème :
- Yahoo Audio Search
- Sortie de GoogleStats v2.01
- Googlebot, le robot d'indexation de Google
- Déclarer son fichier sitemap dans le fichier robots.txt
- Alexa lance un moteur de recherche d'images
- Référencement de vidéos avec les fichiers sitemaps vidéo
- Google crawle les fichiers CSS
- AdSense Tracking : statistiques détaillées sur les clics AdSense
- Robots.txt : Yahoo supporte les options avancées
- Séminaire URL Rewriting et sites dynamiques
- Fichiers Log
- Javascript + fichiers de log
- Problème de date des fichiers log et awstat
- Quel logiciel pour analyser fichiers log ?
- Fichiers Log pour répérer le passage de google
- [dedie] Supprimer log de access.log et error.log apache
- Robots : exclure certains mots?
- Exclure les robots indésirable : 2 méthodes
- Faut-il exclure le fichier index dans le robots.txt
- [regle] peut-on exclure les repertoires // dans robots.txt ?
Consultez la description détaillée des produits ou services de Google suivants : Googlebot
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités




le forum