Technique pour lister les robots, votre avis ?

Consultez la formation au référencement naturel Google de WebRankInfo / Ranking Metrics

AntoineViau
Nouveau WRInaute
 
Messages: 31
Inscription: Lun Mar 07, 2005 11:16

Technique pour lister les robots, votre avis ?

Message le Jeu Avr 07, 2005 10:34

Salut à tous,

Je pense mettre en place un système pour trouver tous les robots qui passent sur mon site et ainsi avoir une liste exhaustive des robots en activités avec leurs IP et User-agent. Je ne sais pas si cette méthode est déjà employée (j'imagine que quelqu'un y a déjà pensé) et si elle est valable, donc j'aimerais avoir votre avis. Pour rendre à César ce qui appartient à César, cette idée a été évoquée sur un forum d'Actulab.

Il s'agit de se baser sur le fichier robots.txt
Ce fichier est lu par les robots et accessoirement par les "aspirateurs" de sites. On va dire que ces derniers sont négligeables.
Etant donné que les robots lisent le fichier, je le redirige avec Apache par un :
Alias /robots.txt /robots.php
Mon fichier PHP va renvoyer proprement les infos que robots.txt est censé contenir, mais surtout il va récupérer l'IP et le User-agent afin de construire une liste dans un fichier ou dans une BDD.
Ensuite, avec cette BDD, il est assez simple de checker pour chaque page afin de savoir précisément qui est passé.

Inconvénients :

- on ne peut pas "nommer" les robots car certains moteurs utilisent plusieurs User-agent. Mais personnellement, je ne trouve pas cela trop dérangeant. A la limite c'est justement plus précis.

- pour limiter la bande passante les moteurs (Google notamment) ne lisent le fichier robots.txt qu'une fois par jour. Encore une fois, ça n'est pas trop dérangeant, à condition que les divers robots ne partagent pas le même "cache de robots.txt".

Votre avis sur la question ?

Antoine

arkantos
WRInaute passionné
WRInaute passionné
 
Messages: 940
Inscription: Sam Oct 09, 2004 22:13

Message le Jeu Avr 07, 2005 11:00


AntoineViau
Nouveau WRInaute
 
Messages: 31
Inscription: Lun Mar 07, 2005 11:16

Message le Jeu Avr 07, 2005 11:45

Vivi j'entends bien :)
Je l'utilise même aujourd'hui... Je n'ai décortiqué qu'une partie du source et je ne sais pas s'il est capable de mettre sa liste de robots à jour automatiquement... D'où mon idée, d'où ma question :)

Antoine

Sir Dipp
WRInaute accro
WRInaute accro
 
Messages: 1025
Inscription: Lun Juil 21, 2003 17:53

Message le Jeu Avr 07, 2005 12:04

Si tu as accès à tes logs tu peux regarder toutes les ip qui ont essayer de lire le fichier robots.txt c'est sûr que pour la plus part du temps c'est un robot.

A+

AntoineViau
Nouveau WRInaute
 
Messages: 31
Inscription: Lun Mar 07, 2005 11:16

Message le Jeu Avr 07, 2005 12:08

En fait les objectifs sont multiples :

- faire mon propre robotstats, juste que parce que je suis programmeur et que ça m'amuse :)

- pouvoir tenir une liste totalement à jour des robots et éventuellement la mettre à disposition de tous en permanence. Et ce, de façon totalement automatisée.

- me la péter grave :)

Antoine


Formation recommandée sur ce thème :

Formation Référencement naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.

Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.

Lectures recommandées sur ce thème :



Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités