Exalead et Crawl-delay

Consultez la formation au REFERENCEMENT naturel Google de WebRankInfo / Ranking Metrics

Albert1
WRInaute impliqué
WRInaute impliqué
 
Messages: 935
Enregistré le: 23 Aoû 2005

Exalead et Crawl-delay

Message le Dim Juin 04, 2006 2:24

le bot d'indexation NG/2.0 connaît il (et s'y conforme t'il) l'instruction Crawl-delay du robots.txt ?
a priori je dirais non ...
mais sait on jamais :wink:


achtungbaby
WRInaute accro
WRInaute accro
 
Messages: 4077
Enregistré le: 14 Juin 2004

Message le Dim Juin 04, 2006 9:44

Déjà qe ses bots sont léthargiques, alors si tu leur colles un délais...

Albert1
WRInaute impliqué
WRInaute impliqué
 
Messages: 935
Enregistré le: 23 Aoû 2005

Message le Dim Juin 04, 2006 12:51

achtungbaby a écrit:Déjà qe ses bots sont léthargiques

pas chez moi, une page rechargée 6 fois en 9 secondes, moi j'appelle çà fébrile pas léthargique :wink:
et ce n'est pas un cas isolée (sur ce même crawl) ...

spidetra
WRInaute passionné
WRInaute passionné
 
Messages: 1500
Enregistré le: 7 Juil 2003

Message le Dim Juin 04, 2006 12:54

...
Modifié en dernier par spidetra le Ven Sep 01, 2006 21:12, modifié 1 fois.

Albert1
WRInaute impliqué
WRInaute impliqué
 
Messages: 935
Enregistré le: 23 Aoû 2005

Message le Dim Juin 04, 2006 13:05

allez hop un screenshot :
Image
les infos sont collectées avec BBClone (démo)
j'ai évidemment supprimée les informations parasites et inintéressantes (dans le cadre de ce sujet)
comme par exemple les titres des pages visitées.

et ce qui se trouve dans mon robots.txt :
Code: Tout sélectionner
User-agent: *
Crawl-delay: 10

ExaleadGuy
Officiel Exalead
 
Messages: 127
Enregistré le: 9 Aoû 2005

Message le Mar Juin 06, 2006 11:16

Notre robot ne prend effectivement pas encore en compte la directive craw-delay, cette directive n'etant pas officielle. Néanmoins, nous avons des dev en cours autour de ce sujet et elle devrait etre prise en compte d'ici l'automne je pense.

Cela ne nous empeche pas de respecter des delais entre chaque GET. Ce délai est réglé à 2,5 s entre 2 GET actuellement. Donc nous ne devrions pas faire 6 refresh en 9s.

Pouvez vous m'envoyer en message privé l'extrait de log contenant les heures, les URL fetchées et les adresses IP source afin que nous cernions mieux le probleme ?

Merci

Albert1
WRInaute impliqué
WRInaute impliqué
 
Messages: 935
Enregistré le: 23 Aoû 2005

Message le Mer Juin 07, 2006 11:54

ExaleadGuy a écrit:Notre robot ne prend effectivement pas encore en compte la directive craw-delay, cette directive n'etant pas officielle. Néanmoins, nous avons des dev en cours autour de ce sujet et elle devrait etre prise en compte d'ici l'automne je pense.

Bonne nouvelle !

ExaleadGuy a écrit:Cela ne nous empeche pas de respecter des delais entre chaque GET. Ce délai est réglé à 2,5 s entre 2 GET actuellement. Donc nous ne devrions pas faire 6 refresh en 9s.

Ok ...

ExaleadGuy a écrit:Pouvez vous m'envoyer en message privé l'extrait de log contenant les heures, les URL fetchées et les adresses IP source afin que nous cernions mieux le probleme ?

L'adresse IP du robot se trouve sur la capture d'écran dans mon message précédent ...
les logs et tout çà, j'ai rien de plus que cette capture :wink:
quoique j'ai çà qui traînait dans ma base SQL :
Code: Tout sélectionner
NG/2.0     217.74.99.25     2006/06/04 03:00

je crois que l'heure est en GMT+2

ExaleadGuy
Officiel Exalead
 
Messages: 127
Enregistré le: 9 Aoû 2005

Message le Mer Juin 07, 2006 13:39

Ah oui ok j'avais pas vu. En l'occurence, il s'agit du robot AOL qui, pour une raison que j'ignore, etait effectivement configuré pour etre un peu plus agressif, nous venons de changer les reglages. Merci pour ce retour

Albert1
WRInaute impliqué
WRInaute impliqué
 
Messages: 935
Enregistré le: 23 Aoû 2005

Message le Mer Juin 07, 2006 13:56

ExaleadGuy a écrit:Merci pour ce retour

c'est moi qui vous remercie (surtout pour AOL).

Albert1
WRInaute impliqué
WRInaute impliqué
 
Messages: 935
Enregistré le: 23 Aoû 2005

Message le Lun Aoû 28, 2006 10:17

problème similaire aujourd'hui (entres autres) avec un Exabot/3.0 IP : 193.47.80.43
3 secondes par page, il recharge la même page plusieurs fois durant ces 3 secondes !

du grand n'importe quoi ...
enfin, si il aime se manger des erreurs 50x, moi ça me gêne pas trop :lol:

ExaleadGuy
Officiel Exalead
 
Messages: 127
Enregistré le: 9 Aoû 2005

Message le Lun Aoû 28, 2006 10:58

Merci pour ce feedback

ExaBot/3.0 est la nouvelle version de notre crawler qui va nous permettre d'etre plus adaptatif dans les ressources que l'on prend aux sites web (notamment prise en compte tres bientot du crawl-delay)

Nous l'avons pas mal teste en interne mais le vrai test pour un crawler, c'est le vrai web et il reste peut etre encore qques bugs de jeunesse.
Je suis preneur de tout feedback a ce sujet.

Est ce que vous pourriez me donner le nom de votre site et l'heure du glitch pour que j'elucide davantage (je suppose que ce n'est pas www.perdu.com)

mowmow
WRInaute impliqué
WRInaute impliqué
 
Messages: 975
Enregistré le: 3 Nov 2004

Message le Mer Sep 13, 2006 12:05

achtungbaby a écrit:Déjà qe ses bots sont léthargiques, alors si tu leur colles un délais...


A peu près 200 pages indéxées pour mon site actuellement, (bon on y est pas encore) contre 2 pour Google, 1 pour Yahoo et 1 pour MSN ...


achtungbaby
WRInaute accro
WRInaute accro
 
Messages: 4077
Enregistré le: 14 Juin 2004

Message le Mer Sep 13, 2006 13:00

Depuis le 4 juin, de l'eau est coulée sous les ponts. Par contre je comprend pas le résultat sur exalead. Si je tape la commande site:monsite.tld, il indique plus de 5 millions de résultats. euh...

Apparement il ne tient pas compte des directives dans robots.txt, et le site est référencé en double, sur les anciennes urls et sur les urls rewritées.

Enfin meme en divisant par 2, je comprends pas comment il a trouvé autant de pages.

Par ailleur, si je regarde la pertinence des requetes, je n'apparais sur aucun de mes mots clefs, ceux pour lesquels je suis classé de façon identique sur google et yahoo.

ExaleadGuy
Officiel Exalead
 
Messages: 127
Enregistré le: 9 Aoû 2005

Message le Mer Sep 13, 2006 18:24

Plusieurs explications:
Le nombre de pages affiché est une estimation. Dans votre cas, le nombre réél est 200 000 environ. Une telle disparité est assez rare, mais vous devez statistiquement vous trouver davantage dans l'ensemble testé.

Par ailleurs, Exalead respecte le robots.txt. Neanmoins, la spec de robots.txt http://www.robotstxt.org/wc/norobots.html ne spécifie pas ce qu'il faut faire pour les queries et ne parle pas de '*'
Or, dans votre robots.txt vous specifiez des trcs du genre :
Disallow: /news/commentaire.php?*

Ici, un extrait de debat sur les queries et les robots:
http://www.webmasterworld.com/forum93/206.htm

Néanmoins, l'utilisation de ce genre de regles devenant de plus en plus fréquente, nous avons décidé de la coder et ce devrait etre en prod d'ici 1-2 semaines je pense.

Pour info (vous pouvez repondre en mp si vous preferez), c'est quoi les mots clés sur lesquels vous apparaissez ailleurs et pas sur Exalead.

Merci

ExaleadGuy
Officiel Exalead
 
Messages: 127
Enregistré le: 9 Aoû 2005

Message le Mer Sep 13, 2006 18:26

D'ailleurs pour repondre au sujet principal du thread, le crawl-delay est maintenant une fonctionalité qui est prise en compte de notre coté

keke_amour
WRInaute discret
WRInaute discret
 
Messages: 127
Enregistré le: 21 Avr 2006

Message le Mer Sep 20, 2006 12:55

Bonjour,

Hum, je me permais de poser une question bète :
A quoi correspond exactement le crawl delay ?

S'agit-il d'une indication de temps entre chaque requête d'information demandé par votre moteur ?
Est-ce que le fait que je ne l'ai pas indiqué sur mon fichier, empèche mon site d'être référencé corectement sur Exalead ?

J'ai fais la demande d'indexation il y a 1 ans et demis, et j'avais eu la joie d'être indexé du premier coup (2 semaines ...)
J'ai refais des demandes, mais sans plus de résultat, alors que mon site à beaucoup évolué (3 évolutions majeur ...) depuis ce temps.

Bon courage à toute l'équipe, et quand vous voulez pour un nouveau défi à Counter le Vendredi soir à coté du jardin du Luxembourg !

Kéké.

ExaleadGuy
Officiel Exalead
 
Messages: 127
Enregistré le: 9 Aoû 2005

Message le Ven Sep 29, 2006 13:47

Ne pas spécifier de crawl-delay n'empeche bien sur pas l'indexation du site.

Pour les soumissions, il y a des periodes ou ca ne marchait pas tres bien car nous étions en phase de migration, maintenant tout doit etre au point.

Le site dont vous parlez c'est celui mentionné dans votre profil ?

Si oui, il est correctement référencé par Exalead ? non ?


Formation recommandée sur ce thème :

Formation REFERENCEMENT naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.

Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.

Lectures recommandées sur ce thème :