Messages: 935

Enregistré le: 23 Aoû 2005

Message le Dim Juin 04, 2006 3:24

le bot d'indexation NG/2.0 connaît il (et s'y conforme t'il) l'instruction Crawl-delay du robots.txt ?
a priori je dirais non ...
mais sait on jamais :wink:
Haut
16 Réponses
Messages: 4077

Enregistré le: 14 Juin 2004

Message le Dim Juin 04, 2006 10:44

Déjà qe ses bots sont léthargiques, alors si tu leur colles un délais...
Haut
Messages: 935

Enregistré le: 23 Aoû 2005

Message le Dim Juin 04, 2006 13:51

achtungbaby a écrit:Déjà qe ses bots sont léthargiques

pas chez moi, une page rechargée 6 fois en 9 secondes, moi j'appelle çà fébrile pas léthargique :wink:
et ce n'est pas un cas isolée (sur ce même crawl) ...
Haut
Messages: 1500

Enregistré le: 7 Juil 2003

Message le Dim Juin 04, 2006 13:54

...
Modifié en dernier par spidetra le Ven Sep 01, 2006 22:12, modifié 1 fois.
Haut
Messages: 935

Enregistré le: 23 Aoû 2005

Message le Dim Juin 04, 2006 14:05

allez hop un screenshot :
Image
les infos sont collectées avec BBClone (démo)
j'ai évidemment supprimée les informations parasites et inintéressantes (dans le cadre de ce sujet)
comme par exemple les titres des pages visitées.

et ce qui se trouve dans mon robots.txt :
Code: Tout sélectionner
User-agent: *
Crawl-delay: 10
Haut
Messages: 127

Enregistré le: 9 Aoû 2005

Message le Mar Juin 06, 2006 12:16

Notre robot ne prend effectivement pas encore en compte la directive craw-delay, cette directive n'etant pas officielle. Néanmoins, nous avons des dev en cours autour de ce sujet et elle devrait etre prise en compte d'ici l'automne je pense.

Cela ne nous empeche pas de respecter des delais entre chaque GET. Ce délai est réglé à 2,5 s entre 2 GET actuellement. Donc nous ne devrions pas faire 6 refresh en 9s.

Pouvez vous m'envoyer en message privé l'extrait de log contenant les heures, les URL fetchées et les adresses IP source afin que nous cernions mieux le probleme ?

Merci
Haut
Messages: 935

Enregistré le: 23 Aoû 2005

Message le Mer Juin 07, 2006 12:54

ExaleadGuy a écrit:Notre robot ne prend effectivement pas encore en compte la directive craw-delay, cette directive n'etant pas officielle. Néanmoins, nous avons des dev en cours autour de ce sujet et elle devrait etre prise en compte d'ici l'automne je pense.

Bonne nouvelle !

ExaleadGuy a écrit:Cela ne nous empeche pas de respecter des delais entre chaque GET. Ce délai est réglé à 2,5 s entre 2 GET actuellement. Donc nous ne devrions pas faire 6 refresh en 9s.

Ok ...

ExaleadGuy a écrit:Pouvez vous m'envoyer en message privé l'extrait de log contenant les heures, les URL fetchées et les adresses IP source afin que nous cernions mieux le probleme ?

L'adresse IP du robot se trouve sur la capture d'écran dans mon message précédent ...
les logs et tout çà, j'ai rien de plus que cette capture :wink:
quoique j'ai çà qui traînait dans ma base SQL :
Code: Tout sélectionner
NG/2.0     217.74.99.25     2006/06/04 03:00

je crois que l'heure est en GMT+2
Haut
Messages: 127

Enregistré le: 9 Aoû 2005

Message le Mer Juin 07, 2006 14:39

Ah oui ok j'avais pas vu. En l'occurence, il s'agit du robot AOL qui, pour une raison que j'ignore, etait effectivement configuré pour etre un peu plus agressif, nous venons de changer les reglages. Merci pour ce retour
Haut
Messages: 935

Enregistré le: 23 Aoû 2005

Message le Mer Juin 07, 2006 14:56

ExaleadGuy a écrit:Merci pour ce retour

c'est moi qui vous remercie (surtout pour AOL).
Haut
Messages: 935

Enregistré le: 23 Aoû 2005

Message le Lun Aoû 28, 2006 11:17

problème similaire aujourd'hui (entres autres) avec un Exabot/3.0 IP : 193.47.80.43
3 secondes par page, il recharge la même page plusieurs fois durant ces 3 secondes !

du grand n'importe quoi ...
enfin, si il aime se manger des erreurs 50x, moi ça me gêne pas trop :lol:
Haut
Messages: 127

Enregistré le: 9 Aoû 2005

Message le Lun Aoû 28, 2006 11:58

Merci pour ce feedback

ExaBot/3.0 est la nouvelle version de notre crawler qui va nous permettre d'etre plus adaptatif dans les ressources que l'on prend aux sites web (notamment prise en compte tres bientot du crawl-delay)

Nous l'avons pas mal teste en interne mais le vrai test pour un crawler, c'est le vrai web et il reste peut etre encore qques bugs de jeunesse.
Je suis preneur de tout feedback a ce sujet.

Est ce que vous pourriez me donner le nom de votre site et l'heure du glitch pour que j'elucide davantage (je suppose que ce n'est pas www.perdu.com)
Haut
Messages: 975

Enregistré le: 3 Nov 2004

Message le Mer Sep 13, 2006 13:05

achtungbaby a écrit:Déjà qe ses bots sont léthargiques, alors si tu leur colles un délais...


A peu près 200 pages indéxées pour mon site actuellement, (bon on y est pas encore) contre 2 pour Google, 1 pour Yahoo et 1 pour MSN ...
Haut
Messages: 4077

Enregistré le: 14 Juin 2004

Message le Mer Sep 13, 2006 14:00

Depuis le 4 juin, de l'eau est coulée sous les ponts. Par contre je comprend pas le résultat sur exalead. Si je tape la commande site:monsite.tld, il indique plus de 5 millions de résultats. euh...

Apparement il ne tient pas compte des directives dans robots.txt, et le site est référencé en double, sur les anciennes urls et sur les urls rewritées.

Enfin meme en divisant par 2, je comprends pas comment il a trouvé autant de pages.

Par ailleur, si je regarde la pertinence des requetes, je n'apparais sur aucun de mes mots clefs, ceux pour lesquels je suis classé de façon identique sur google et yahoo.
Haut
Messages: 127

Enregistré le: 9 Aoû 2005

Message le Mer Sep 13, 2006 19:24

Plusieurs explications:
Le nombre de pages affiché est une estimation. Dans votre cas, le nombre réél est 200 000 environ. Une telle disparité est assez rare, mais vous devez statistiquement vous trouver davantage dans l'ensemble testé.

Par ailleurs, Exalead respecte le robots.txt. Neanmoins, la spec de robots.txt http://www.robotstxt.org/wc/norobots.html ne spécifie pas ce qu'il faut faire pour les queries et ne parle pas de '*'
Or, dans votre robots.txt vous specifiez des trcs du genre :
Disallow: /news/commentaire.php?*

Ici, un extrait de debat sur les queries et les robots:
http://www.webmasterworld.com/forum93/206.htm

Néanmoins, l'utilisation de ce genre de regles devenant de plus en plus fréquente, nous avons décidé de la coder et ce devrait etre en prod d'ici 1-2 semaines je pense.

Pour info (vous pouvez repondre en mp si vous preferez), c'est quoi les mots clés sur lesquels vous apparaissez ailleurs et pas sur Exalead.

Merci
Haut
Messages: 127

Enregistré le: 9 Aoû 2005

Message le Mer Sep 13, 2006 19:26

D'ailleurs pour repondre au sujet principal du thread, le crawl-delay est maintenant une fonctionalité qui est prise en compte de notre coté
Haut
Messages: 127

Enregistré le: 21 Avr 2006

Message le Mer Sep 20, 2006 13:55

Bonjour,

Hum, je me permais de poser une question bète :
A quoi correspond exactement le crawl delay ?

S'agit-il d'une indication de temps entre chaque requête d'information demandé par votre moteur ?
Est-ce que le fait que je ne l'ai pas indiqué sur mon fichier, empèche mon site d'être référencé corectement sur Exalead ?

J'ai fais la demande d'indexation il y a 1 ans et demis, et j'avais eu la joie d'être indexé du premier coup (2 semaines ...)
J'ai refais des demandes, mais sans plus de résultat, alors que mon site à beaucoup évolué (3 évolutions majeur ...) depuis ce temps.

Bon courage à toute l'équipe, et quand vous voulez pour un nouveau défi à Counter le Vendredi soir à coté du jardin du Luxembourg !

Kéké.
Haut
Messages: 127

Enregistré le: 9 Aoû 2005

Message le Ven Sep 29, 2006 14:47

Ne pas spécifier de crawl-delay n'empeche bien sur pas l'indexation du site.

Pour les soumissions, il y a des periodes ou ca ne marchait pas tres bien car nous étions en phase de migration, maintenant tout doit etre au point.

Le site dont vous parlez c'est celui mentionné dans votre profil ?

Si oui, il est correctement référencé par Exalead ? non ?
Haut