Messages: 3718

Enregistré le: 4 Oct 2002

Message le Mer Avr 04, 2007 8:47

Je suis crawlé par exabot, mais exabot utilise comme base pour les images des pages assez vieilles (4-5 mois).
J'avais change tous mes chemin d'images dans le code de
/image/image.jpg
à
www.example.com/image/image.jpg
car les robots ont du mal avec l'UR et cela créaient des erreur 404.


exabot utilisent les anciens fichiers -> erreur 404.
Haut
16 Réponses
Messages: 126

Enregistré le: 9 Aoû 2005

Message le Lun Avr 16, 2007 18:58

Vous pouvez m'envoyer en mp plus d'infos pour que je puisse regarder d'ou çà vient ?
Merci

Par ailleurs, surveillez bien, cette semaine, une nouvelle version du moteur images devrait apparaitre. Au menu bp plus d'images et des fonctionalités inédites...
Haut
Messages: 126

Enregistré le: 9 Aoû 2005

Message le Mar Avr 17, 2007 11:27

Suite au mp de Suede, je viens d'investiguer son probleme, nous avions un bug à un moment dans notre gestion du tag BASE du coté du moteur images qui a été corrigé dernierement, ce qui fait que nous avons crawlé un certain nombre de faux liens.
Néanmoins, j'ai vérifié et a priori nous avons neanmoins reussi à recuperer les vrais liens et les images du site en question sont presentes en plus grand nombre dans la nouvelle version de notre moteur images (en cours de lancement cette semaine) que dans le moteur images de G....e
Haut
Messages: 126

Enregistré le: 9 Aoû 2005

Message le Jeu Avr 19, 2007 18:26

La nouvelle version dont je parlais est maintenant en ligne
plus d'infos ici:
http://blog.exalead.fr/2007/04/exalead_recherc.html
Haut
Messages: 4

Enregistré le: 17 Nov 2006

Message le Lun Juin 11, 2007 11:48

Bonjour
Mon anti aspirateur a bloqué un robot ou un aspirteur nommé exaboot. J'aimerais savoir s'il s'agit d'un robot ou dun aspirateur afin de le débloquer.
Son ip est 193.47.80.38
Merci de m'aider
Haut
Messages: 126

Enregistré le: 9 Aoû 2005

Message le Lun Juin 11, 2007 11:51

Oui il s'agit du robot d'Exalead.
Pour verifier l'authenticité d'un robot vous pouvez faire du reverse dns :
host 193.47.80.38
38.80.47.193.in-addr.arpa domain name pointer crawl2.exabot.com.
cf http://www.exalead.fr/about/document/53#7
Haut
Messages: 22671

Enregistré le: 8 Aoû 2004

Message le Jeu Aoû 23, 2007 9:27

j'ai du bloquer le spider Exabot-Thumbnails, il ne lit pas le fichier robots.txt et s'amuse à lire le contenu des css pour récupérer des images n'existant pas, du fait que toutes les classes ne sont pas utilisées.
De toutes façons, pour le nombre de visiteurs en provenance de exalead : environ 0,2% de gg :lol:
Haut
Messages: 126

Enregistré le: 9 Aoû 2005

Message le Jeu Aoû 23, 2007 11:27

Ma reponses en plusieurs points

1) Exabot-Thumbnails ne genere des thumbnails que pour les urls crawlées par Exabot qui lui n'indexe que des pages qui sont autorisés par le fichier robots.txt

2) Exabot-Thumbnails est essentiellement un browser standard du marché legerement customisé. Il tire les memes ressources qu'un browser normal.

3) Les personnes qui ne veulent pas de thumbnail pour leurs pages peuvent rajouter <META NAME = "ROBOTS" CONTENT = "NOTHUMBNAIL" > a leurs pages
cf http://www.exalead.com/about/document/53#17

4) Robots.txt n'est pas clair sur les usages exacts et sur ce que Disallow est censé interdire vis à vis des multi usages crawl / indexation / mise en cache / thumbnails etc.
Exalead est conscient de ces limitations et est le premier moteur a avoir rejoint l'ACAP http://www.the-acap.org/ qui a pour but de creer un standard qui etend et standardise les possibilités du robots exclusion protocol.
Haut
Messages: 22671

Enregistré le: 8 Aoû 2004

Message le Jeu Aoû 23, 2007 11:49

ExaleadGuy a écrit:Ma reponses en plusieurs points

1) Exabot-Thumbnails ne genere des thumbnails que pour les urls crawlées par Exabot qui lui n'indexe que des pages qui sont autorisés par le fichier robots.txt
pour ce qui me concerne, sur plusieurs site, il s'amuse à crawler des url d'images qui ne sont disponibles que dans les feuilles de styles externes. J'ai une feuille de style qui contient des classes n'étant pas utilisées actuellement, et de ce fait, je n'ai pas besoin des images correspondantes et Exabot-Thumbnails s'amuse à me crawler ces liens, malgré le fait que le répertoire soit indiqué dans les disalow.
C'est le seul moteur qui s'amuse à me crawler ces images inexistantes.
J'ai l'impression que la priorité semble être le crawl des images au détriment du contenu textuel :cry:
Haut
Messages: 1717

Enregistré le: 6 Aoû 2004

Message le Jeu Aoû 23, 2007 12:09

Aucun mouvement de ce bot sur mon site :oops:
Haut
Messages: 126

Enregistré le: 9 Aoû 2005

Message le Jeu Aoû 23, 2007 13:59

Precision: Exabot-Thumbnails n'indexe rien : il construit uniquement les vignettes des pages donc forcement recupere les css et les images associées aux pages qui ont été indexé par le bot principal Exabot.
Exabot-Thumbnail a le meme comportement qu'un browser utilisateur.
Haut
Messages: 22671

Enregistré le: 8 Aoû 2004

Message le Jeu Aoû 23, 2007 14:06

ExaleadGuy a écrit:Precision: Exabot-Thumbnails n'indexe rien : il construit uniquement les vignettes des pages donc forcement recupere les css et les images associées aux pages qui ont été indexé par le bot principal Exabot.
Exabot-Thumbnail a le meme comportement qu'un browser utilisateur.
sauf qu'avec un browser utilisateur, je n'ai pas d'erreur 404 car il va chercher des images de classes non utilisées sur le site
Haut
Messages: 126

Enregistré le: 9 Aoû 2005

Message le Jeu Aoû 23, 2007 15:23

Mais as tu testé tous les browsers sur toutes tes pages pour etre sur de ce que tu avances ?
Haut
Messages: 22671

Enregistré le: 8 Aoû 2004

Message le Jeu Aoû 23, 2007 15:34

ExaleadGuy a écrit:Mais as tu testé tous les browsers sur toutes tes pages pour etre sur de ce que tu avances ?
non, plus simple, j'ai un envoi de mel sur toutes mes erreurs 404 et il n'y a qu'Exabot-Thumbnails qui les crée :?
Haut
Messages: 126

Enregistré le: 9 Aoû 2005

Message le Jeu Aoû 23, 2007 15:49

Exabot Thumbnails est basé sur KHTML de la meme facon que Konqueror et dans une moindre mesure Safari. Donc Konqueror au minimum devrait generer les memes erreurs.
Haut
Messages: 22671

Enregistré le: 8 Aoû 2004

Message le Jeu Aoû 23, 2007 16:00

les différents services de Thumbshots ne font pas ces erreurs.
Haut
Messages: 22671

Enregistré le: 8 Aoû 2004

Message le Ven Aoû 31, 2007 13:19

Bon, j'ai réussi à résoudre ce problème de pages 404.
Comme visiblement le bot ne sais pas tenir compte des directives du robots.txt
Code: Tout sélectionner
User-agent: *
Disallow: /images*
je lui ai gentillement demandé de ne plus crawler les images, et là, ça marche
Code: Tout sélectionner
RewriteCond %{HTTP_USER_AGENT} Exabot-Thumbnails
RewriteRule (jpg|gif|png) - [F,L]
:twisted: :twisted:
Haut