Technique pour lister les robots, votre avis ?
5 messages • Page 1 sur 1
Consultez la formation au référencement naturel Google de WebRankInfo / Ranking Metrics
- AntoineViau
- Nouveau WRInaute
- Messages: 31
- Inscription: Lun Mar 07, 2005 11:16
Technique pour lister les robots, votre avis ?
Salut à tous,
Je pense mettre en place un système pour trouver tous les robots qui passent sur mon site et ainsi avoir une liste exhaustive des robots en activités avec leurs IP et User-agent. Je ne sais pas si cette méthode est déjà employée (j'imagine que quelqu'un y a déjà pensé) et si elle est valable, donc j'aimerais avoir votre avis. Pour rendre à César ce qui appartient à César, cette idée a été évoquée sur un forum d'Actulab.
Il s'agit de se baser sur le fichier robots.txt
Ce fichier est lu par les robots et accessoirement par les "aspirateurs" de sites. On va dire que ces derniers sont négligeables.
Etant donné que les robots lisent le fichier, je le redirige avec Apache par un :
Alias /robots.txt /robots.php
Mon fichier PHP va renvoyer proprement les infos que robots.txt est censé contenir, mais surtout il va récupérer l'IP et le User-agent afin de construire une liste dans un fichier ou dans une BDD.
Ensuite, avec cette BDD, il est assez simple de checker pour chaque page afin de savoir précisément qui est passé.
Inconvénients :
- on ne peut pas "nommer" les robots car certains moteurs utilisent plusieurs User-agent. Mais personnellement, je ne trouve pas cela trop dérangeant. A la limite c'est justement plus précis.
- pour limiter la bande passante les moteurs (Google notamment) ne lisent le fichier robots.txt qu'une fois par jour. Encore une fois, ça n'est pas trop dérangeant, à condition que les divers robots ne partagent pas le même "cache de robots.txt".
Votre avis sur la question ?
Antoine
Je pense mettre en place un système pour trouver tous les robots qui passent sur mon site et ainsi avoir une liste exhaustive des robots en activités avec leurs IP et User-agent. Je ne sais pas si cette méthode est déjà employée (j'imagine que quelqu'un y a déjà pensé) et si elle est valable, donc j'aimerais avoir votre avis. Pour rendre à César ce qui appartient à César, cette idée a été évoquée sur un forum d'Actulab.
Il s'agit de se baser sur le fichier robots.txt
Ce fichier est lu par les robots et accessoirement par les "aspirateurs" de sites. On va dire que ces derniers sont négligeables.
Etant donné que les robots lisent le fichier, je le redirige avec Apache par un :
Alias /robots.txt /robots.php
Mon fichier PHP va renvoyer proprement les infos que robots.txt est censé contenir, mais surtout il va récupérer l'IP et le User-agent afin de construire une liste dans un fichier ou dans une BDD.
Ensuite, avec cette BDD, il est assez simple de checker pour chaque page afin de savoir précisément qui est passé.
Inconvénients :
- on ne peut pas "nommer" les robots car certains moteurs utilisent plusieurs User-agent. Mais personnellement, je ne trouve pas cela trop dérangeant. A la limite c'est justement plus précis.
- pour limiter la bande passante les moteurs (Google notamment) ne lisent le fichier robots.txt qu'une fois par jour. Encore une fois, ça n'est pas trop dérangeant, à condition que les divers robots ne partagent pas le même "cache de robots.txt".
Votre avis sur la question ?
Antoine
- AntoineViau
- Nouveau WRInaute
- Messages: 31
- Inscription: Lun Mar 07, 2005 11:16
Vivi j'entends bien
Je l'utilise même aujourd'hui... Je n'ai décortiqué qu'une partie du source et je ne sais pas s'il est capable de mettre sa liste de robots à jour automatiquement... D'où mon idée, d'où ma question
Antoine
Je l'utilise même aujourd'hui... Je n'ai décortiqué qu'une partie du source et je ne sais pas s'il est capable de mettre sa liste de robots à jour automatiquement... D'où mon idée, d'où ma question
Antoine
- AntoineViau
- Nouveau WRInaute
- Messages: 31
- Inscription: Lun Mar 07, 2005 11:16
En fait les objectifs sont multiples :
- faire mon propre robotstats, juste que parce que je suis programmeur et que ça m'amuse
- pouvoir tenir une liste totalement à jour des robots et éventuellement la mettre à disposition de tous en permanence. Et ce, de façon totalement automatisée.
- me la péter grave
Antoine
- faire mon propre robotstats, juste que parce que je suis programmeur et que ça m'amuse
- pouvoir tenir une liste totalement à jour des robots et éventuellement la mettre à disposition de tous en permanence. Et ce, de façon totalement automatisée.
- me la péter grave
Antoine
5 messages • Page 1 sur 1
Formation recommandée sur ce thème :
Formation Référencement naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.
Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.
Lectures recommandées sur ce thème :
- Explications sur le Crawl Caching Proxy de Google
- Robots.txt : Yahoo supporte les options avancées
- Comment gérer simplement les sitemaps de plusieurs sites au même endroit
- Exalead rejoint le protocole Sitemaps.org
- La commande link: sur Google
- Sortie de GoogleStats v2.01
- Les crawlers de Yahoo!
- Opérateurs de recherche avancée sur MSN
- Google News : trucs et astuces
- Microsoft désactive les opérateurs link: et linkdomain:
Consultez la description détaillée des produits ou services de Google suivants : Google Sites
- Liste de sous-domaines
Cet outil vous permet de trouver la liste des sous-domaines (indexés) d'un site.
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités



le forum