Fraicheur des crawls images de exalead ?

Consultez la formation au REFERENCEMENT naturel Google de WebRankInfo / Ranking Metrics


Suede
WRInaute accro
WRInaute accro
 
Messages: 3722
Enregistré le: 4 Oct 2002

Fraicheur des crawls images de exalead ?

Message le Mer Avr 04, 2007 8:47

Je suis crawlé par exabot, mais exabot utilise comme base pour les images des pages assez vieilles (4-5 mois).
J'avais change tous mes chemin d'images dans le code de
/image/image.jpg
à
www.example.com/image/image.jpg
car les robots ont du mal avec l'UR et cela créaient des erreur 404.


exabot utilisent les anciens fichiers -> erreur 404.

Annonces Google

ExaleadGuy
Officiel Exalead
 
Messages: 127
Enregistré le: 9 Aoû 2005

Message le Lun Avr 16, 2007 18:58

Vous pouvez m'envoyer en mp plus d'infos pour que je puisse regarder d'ou çà vient ?
Merci

Par ailleurs, surveillez bien, cette semaine, une nouvelle version du moteur images devrait apparaitre. Au menu bp plus d'images et des fonctionalités inédites...

ExaleadGuy
Officiel Exalead
 
Messages: 127
Enregistré le: 9 Aoû 2005

Message le Mar Avr 17, 2007 11:27

Suite au mp de Suede, je viens d'investiguer son probleme, nous avions un bug à un moment dans notre gestion du tag BASE du coté du moteur images qui a été corrigé dernierement, ce qui fait que nous avons crawlé un certain nombre de faux liens.
Néanmoins, j'ai vérifié et a priori nous avons neanmoins reussi à recuperer les vrais liens et les images du site en question sont presentes en plus grand nombre dans la nouvelle version de notre moteur images (en cours de lancement cette semaine) que dans le moteur images de G....e

ExaleadGuy
Officiel Exalead
 
Messages: 127
Enregistré le: 9 Aoû 2005

Message le Jeu Avr 19, 2007 18:26

La nouvelle version dont je parlais est maintenant en ligne
plus d'infos ici:
http://blog.exalead.fr/2007/04/exalead_recherc.html

lesucces
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 4
Enregistré le: 17 Nov 2006

Message le Lun Juin 11, 2007 11:48

Bonjour
Mon anti aspirateur a bloqué un robot ou un aspirteur nommé exaboot. J'aimerais savoir s'il s'agit d'un robot ou dun aspirateur afin de le débloquer.
Son ip est 193.47.80.38
Merci de m'aider

ExaleadGuy
Officiel Exalead
 
Messages: 127
Enregistré le: 9 Aoû 2005

Message le Lun Juin 11, 2007 11:51

Oui il s'agit du robot d'Exalead.
Pour verifier l'authenticité d'un robot vous pouvez faire du reverse dns :
host 193.47.80.38
38.80.47.193.in-addr.arpa domain name pointer crawl2.exabot.com.
cf http://www.exalead.fr/about/document/53#7


Leonick
WRInaute accro
WRInaute accro
 
Messages: 22675
Enregistré le: 8 Aoû 2004

Message le Jeu Aoû 23, 2007 9:27

j'ai du bloquer le spider Exabot-Thumbnails, il ne lit pas le fichier robots.txt et s'amuse à lire le contenu des css pour récupérer des images n'existant pas, du fait que toutes les classes ne sont pas utilisées.
De toutes façons, pour le nombre de visiteurs en provenance de exalead : environ 0,2% de gg :lol:

ExaleadGuy
Officiel Exalead
 
Messages: 127
Enregistré le: 9 Aoû 2005

Message le Jeu Aoû 23, 2007 11:27

Ma reponses en plusieurs points

1) Exabot-Thumbnails ne genere des thumbnails que pour les urls crawlées par Exabot qui lui n'indexe que des pages qui sont autorisés par le fichier robots.txt

2) Exabot-Thumbnails est essentiellement un browser standard du marché legerement customisé. Il tire les memes ressources qu'un browser normal.

3) Les personnes qui ne veulent pas de thumbnail pour leurs pages peuvent rajouter <META NAME = "ROBOTS" CONTENT = "NOTHUMBNAIL" > a leurs pages
cf http://www.exalead.com/about/document/53#17

4) Robots.txt n'est pas clair sur les usages exacts et sur ce que Disallow est censé interdire vis à vis des multi usages crawl / indexation / mise en cache / thumbnails etc.
Exalead est conscient de ces limitations et est le premier moteur a avoir rejoint l'ACAP http://www.the-acap.org/ qui a pour but de creer un standard qui etend et standardise les possibilités du robots exclusion protocol.


Leonick
WRInaute accro
WRInaute accro
 
Messages: 22675
Enregistré le: 8 Aoû 2004

Message le Jeu Aoû 23, 2007 11:49

ExaleadGuy a écrit:Ma reponses en plusieurs points

1) Exabot-Thumbnails ne genere des thumbnails que pour les urls crawlées par Exabot qui lui n'indexe que des pages qui sont autorisés par le fichier robots.txt
pour ce qui me concerne, sur plusieurs site, il s'amuse à crawler des url d'images qui ne sont disponibles que dans les feuilles de styles externes. J'ai une feuille de style qui contient des classes n'étant pas utilisées actuellement, et de ce fait, je n'ai pas besoin des images correspondantes et Exabot-Thumbnails s'amuse à me crawler ces liens, malgré le fait que le répertoire soit indiqué dans les disalow.
C'est le seul moteur qui s'amuse à me crawler ces images inexistantes.
J'ai l'impression que la priorité semble être le crawl des images au détriment du contenu textuel :cry:

Benoit1
WRInaute passionné
WRInaute passionné
 
Messages: 1741
Enregistré le: 6 Aoû 2004

Message le Jeu Aoû 23, 2007 12:09

Aucun mouvement de ce bot sur mon site :oops:

ExaleadGuy
Officiel Exalead
 
Messages: 127
Enregistré le: 9 Aoû 2005

Message le Jeu Aoû 23, 2007 13:59

Precision: Exabot-Thumbnails n'indexe rien : il construit uniquement les vignettes des pages donc forcement recupere les css et les images associées aux pages qui ont été indexé par le bot principal Exabot.
Exabot-Thumbnail a le meme comportement qu'un browser utilisateur.


Leonick
WRInaute accro
WRInaute accro
 
Messages: 22675
Enregistré le: 8 Aoû 2004

Message le Jeu Aoû 23, 2007 14:06

ExaleadGuy a écrit:Precision: Exabot-Thumbnails n'indexe rien : il construit uniquement les vignettes des pages donc forcement recupere les css et les images associées aux pages qui ont été indexé par le bot principal Exabot.
Exabot-Thumbnail a le meme comportement qu'un browser utilisateur.
sauf qu'avec un browser utilisateur, je n'ai pas d'erreur 404 car il va chercher des images de classes non utilisées sur le site

ExaleadGuy
Officiel Exalead
 
Messages: 127
Enregistré le: 9 Aoû 2005

Message le Jeu Aoû 23, 2007 15:23

Mais as tu testé tous les browsers sur toutes tes pages pour etre sur de ce que tu avances ?


Leonick
WRInaute accro
WRInaute accro
 
Messages: 22675
Enregistré le: 8 Aoû 2004

Message le Jeu Aoû 23, 2007 15:34

ExaleadGuy a écrit:Mais as tu testé tous les browsers sur toutes tes pages pour etre sur de ce que tu avances ?
non, plus simple, j'ai un envoi de mel sur toutes mes erreurs 404 et il n'y a qu'Exabot-Thumbnails qui les crée :?

ExaleadGuy
Officiel Exalead
 
Messages: 127
Enregistré le: 9 Aoû 2005

Message le Jeu Aoû 23, 2007 15:49

Exabot Thumbnails est basé sur KHTML de la meme facon que Konqueror et dans une moindre mesure Safari. Donc Konqueror au minimum devrait generer les memes erreurs.


Leonick
WRInaute accro
WRInaute accro
 
Messages: 22675
Enregistré le: 8 Aoû 2004

Message le Jeu Aoû 23, 2007 16:00

les différents services de Thumbshots ne font pas ces erreurs.


Leonick
WRInaute accro
WRInaute accro
 
Messages: 22675
Enregistré le: 8 Aoû 2004

Message le Ven Aoû 31, 2007 13:19

Bon, j'ai réussi à résoudre ce problème de pages 404.
Comme visiblement le bot ne sais pas tenir compte des directives du robots.txt
Code: Tout sélectionner
User-agent: *
Disallow: /images*
je lui ai gentillement demandé de ne plus crawler les images, et là, ça marche
Code: Tout sélectionner
RewriteCond %{HTTP_USER_AGENT} Exabot-Thumbnails
RewriteRule (jpg|gif|png) - [F,L]
:twisted: :twisted:


Formation recommandée sur ce thème :

Formation REFERENCEMENT naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.

Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.

Lectures recommandées sur ce thème :