Exalead et Crawl-delay
17 messages
• Page 1 sur 2 • 1, 2
Consultez la formation au REFERENCEMENT naturel Google de WebRankInfo / Ranking Metrics
-

achtungbaby - WRInaute accro

- Messages: 4066
- Inscription: 14 Juin 2004
Déjà qe ses bots sont léthargiques, alors si tu leur colles un délais...
- Albert1
- WRInaute impliqué

- Messages: 935
- Inscription: 23 Aoû 2005
allez hop un screenshot :
les infos sont collectées avec BBClone (démo)
j'ai évidemment supprimée les informations parasites et inintéressantes (dans le cadre de ce sujet)
comme par exemple les titres des pages visitées.
et ce qui se trouve dans mon robots.txt :
les infos sont collectées avec BBClone (démo)
j'ai évidemment supprimée les informations parasites et inintéressantes (dans le cadre de ce sujet)
comme par exemple les titres des pages visitées.
et ce qui se trouve dans mon robots.txt :
- Code: Tout sélectionner
User-agent: *
Crawl-delay: 10
-

ExaleadGuy - Officiel Exalead
- Messages: 126
- Inscription: 9 Aoû 2005
Notre robot ne prend effectivement pas encore en compte la directive craw-delay, cette directive n'etant pas officielle. Néanmoins, nous avons des dev en cours autour de ce sujet et elle devrait etre prise en compte d'ici l'automne je pense.
Cela ne nous empeche pas de respecter des delais entre chaque GET. Ce délai est réglé à 2,5 s entre 2 GET actuellement. Donc nous ne devrions pas faire 6 refresh en 9s.
Pouvez vous m'envoyer en message privé l'extrait de log contenant les heures, les URL fetchées et les adresses IP source afin que nous cernions mieux le probleme ?
Merci
Cela ne nous empeche pas de respecter des delais entre chaque GET. Ce délai est réglé à 2,5 s entre 2 GET actuellement. Donc nous ne devrions pas faire 6 refresh en 9s.
Pouvez vous m'envoyer en message privé l'extrait de log contenant les heures, les URL fetchées et les adresses IP source afin que nous cernions mieux le probleme ?
Merci
- Albert1
- WRInaute impliqué

- Messages: 935
- Inscription: 23 Aoû 2005
ExaleadGuy a écrit:Notre robot ne prend effectivement pas encore en compte la directive craw-delay, cette directive n'etant pas officielle. Néanmoins, nous avons des dev en cours autour de ce sujet et elle devrait etre prise en compte d'ici l'automne je pense.
Bonne nouvelle !
ExaleadGuy a écrit:Cela ne nous empeche pas de respecter des delais entre chaque GET. Ce délai est réglé à 2,5 s entre 2 GET actuellement. Donc nous ne devrions pas faire 6 refresh en 9s.
Ok ...
ExaleadGuy a écrit:Pouvez vous m'envoyer en message privé l'extrait de log contenant les heures, les URL fetchées et les adresses IP source afin que nous cernions mieux le probleme ?
L'adresse IP du robot se trouve sur la capture d'écran dans mon message précédent ...
les logs et tout çà, j'ai rien de plus que cette capture
quoique j'ai çà qui traînait dans ma base SQL :
- Code: Tout sélectionner
NG/2.0 217.74.99.25 2006/06/04 03:00
je crois que l'heure est en GMT+2
-

ExaleadGuy - Officiel Exalead
- Messages: 126
- Inscription: 9 Aoû 2005
Ah oui ok j'avais pas vu. En l'occurence, il s'agit du robot AOL qui, pour une raison que j'ignore, etait effectivement configuré pour etre un peu plus agressif, nous venons de changer les reglages. Merci pour ce retour
- Albert1
- WRInaute impliqué

- Messages: 935
- Inscription: 23 Aoû 2005
problème similaire aujourd'hui (entres autres) avec un Exabot/3.0 IP : 193.47.80.43
3 secondes par page, il recharge la même page plusieurs fois durant ces 3 secondes !
du grand n'importe quoi ...
enfin, si il aime se manger des erreurs 50x, moi ça me gêne pas trop
3 secondes par page, il recharge la même page plusieurs fois durant ces 3 secondes !
du grand n'importe quoi ...
enfin, si il aime se manger des erreurs 50x, moi ça me gêne pas trop
-

ExaleadGuy - Officiel Exalead
- Messages: 126
- Inscription: 9 Aoû 2005
Merci pour ce feedback
ExaBot/3.0 est la nouvelle version de notre crawler qui va nous permettre d'etre plus adaptatif dans les ressources que l'on prend aux sites web (notamment prise en compte tres bientot du crawl-delay)
Nous l'avons pas mal teste en interne mais le vrai test pour un crawler, c'est le vrai web et il reste peut etre encore qques bugs de jeunesse.
Je suis preneur de tout feedback a ce sujet.
Est ce que vous pourriez me donner le nom de votre site et l'heure du glitch pour que j'elucide davantage (je suppose que ce n'est pas www.perdu.com)
ExaBot/3.0 est la nouvelle version de notre crawler qui va nous permettre d'etre plus adaptatif dans les ressources que l'on prend aux sites web (notamment prise en compte tres bientot du crawl-delay)
Nous l'avons pas mal teste en interne mais le vrai test pour un crawler, c'est le vrai web et il reste peut etre encore qques bugs de jeunesse.
Je suis preneur de tout feedback a ce sujet.
Est ce que vous pourriez me donner le nom de votre site et l'heure du glitch pour que j'elucide davantage (je suppose que ce n'est pas www.perdu.com)
-

achtungbaby - WRInaute accro

- Messages: 4066
- Inscription: 14 Juin 2004
Depuis le 4 juin, de l'eau est coulée sous les ponts. Par contre je comprend pas le résultat sur exalead. Si je tape la commande site:monsite.tld, il indique plus de 5 millions de résultats. euh...
Apparement il ne tient pas compte des directives dans robots.txt, et le site est référencé en double, sur les anciennes urls et sur les urls rewritées.
Enfin meme en divisant par 2, je comprends pas comment il a trouvé autant de pages.
Par ailleur, si je regarde la pertinence des requetes, je n'apparais sur aucun de mes mots clefs, ceux pour lesquels je suis classé de façon identique sur google et yahoo.
Apparement il ne tient pas compte des directives dans robots.txt, et le site est référencé en double, sur les anciennes urls et sur les urls rewritées.
Enfin meme en divisant par 2, je comprends pas comment il a trouvé autant de pages.
Par ailleur, si je regarde la pertinence des requetes, je n'apparais sur aucun de mes mots clefs, ceux pour lesquels je suis classé de façon identique sur google et yahoo.
-

ExaleadGuy - Officiel Exalead
- Messages: 126
- Inscription: 9 Aoû 2005
Plusieurs explications:
Le nombre de pages affiché est une estimation. Dans votre cas, le nombre réél est 200 000 environ. Une telle disparité est assez rare, mais vous devez statistiquement vous trouver davantage dans l'ensemble testé.
Par ailleurs, Exalead respecte le robots.txt. Neanmoins, la spec de robots.txt http://www.robotstxt.org/wc/norobots.html ne spécifie pas ce qu'il faut faire pour les queries et ne parle pas de '*'
Or, dans votre robots.txt vous specifiez des trcs du genre :
Disallow: /news/commentaire.php?*
Ici, un extrait de debat sur les queries et les robots:
http://www.webmasterworld.com/forum93/206.htm
Néanmoins, l'utilisation de ce genre de regles devenant de plus en plus fréquente, nous avons décidé de la coder et ce devrait etre en prod d'ici 1-2 semaines je pense.
Pour info (vous pouvez repondre en mp si vous preferez), c'est quoi les mots clés sur lesquels vous apparaissez ailleurs et pas sur Exalead.
Merci
Le nombre de pages affiché est une estimation. Dans votre cas, le nombre réél est 200 000 environ. Une telle disparité est assez rare, mais vous devez statistiquement vous trouver davantage dans l'ensemble testé.
Par ailleurs, Exalead respecte le robots.txt. Neanmoins, la spec de robots.txt http://www.robotstxt.org/wc/norobots.html ne spécifie pas ce qu'il faut faire pour les queries et ne parle pas de '*'
Or, dans votre robots.txt vous specifiez des trcs du genre :
Disallow: /news/commentaire.php?*
Ici, un extrait de debat sur les queries et les robots:
http://www.webmasterworld.com/forum93/206.htm
Néanmoins, l'utilisation de ce genre de regles devenant de plus en plus fréquente, nous avons décidé de la coder et ce devrait etre en prod d'ici 1-2 semaines je pense.
Pour info (vous pouvez repondre en mp si vous preferez), c'est quoi les mots clés sur lesquels vous apparaissez ailleurs et pas sur Exalead.
Merci
-

ExaleadGuy - Officiel Exalead
- Messages: 126
- Inscription: 9 Aoû 2005
D'ailleurs pour repondre au sujet principal du thread, le crawl-delay est maintenant une fonctionalité qui est prise en compte de notre coté
17 messages
• Page 1 sur 2 • 1, 2
Formation recommandée sur ce thème :
Formation REFERENCEMENT naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.
Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.
Lectures recommandées sur ce thème :
- Exalead crée une interface pour iPhone et iPod Touch
- Tester son positionnement dans Exalead avec Agent Web Ranking
- Interview de François Bourdoncle (Exalead)
- Exalead dialogue sur le nouveau forum Exalead de WebRankInfo
- 15-02-2006 : Interview Exalead sur le chat de WebRankInfo
- Le Full Crawl a enfin commencé
- Référencement vidéo sur Exalead
- Exalead rejoint le protocole Sitemaps.org
Consultez la description détaillée des produits ou services de Google suivants : Google Webmaster Tools, Google Suggest
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités


