[Crawler] Code de bonne conduite des visites de crawlers

Consultez la formation au référencement naturel Google de WebRankInfo / Ranking Metrics

Aral
Nouveau WRInaute
 
Messages: 2
Inscription: Jeu Nov 20, 2008 11:45

[Crawler] Code de bonne conduite des visites de crawlers

Message le Jeu Nov 20, 2008 12:02

Bonjour,

J'ai une question à poser, pas par rapport au référencement, mais plutôt pour répondre à une problématique que l'on rencontre dans le cadre du développement d'un crawler.

J'aimerais savoir s'il existe une règle communément admise pour les délais entre les requêtes par les crawlers ?

Pour l'instant, nous avons pour notre crawler limité à 2 secondes le délai minimum entre deux requêtes vers un site. Bien sûr, cela peut poser problème, notamment pour des sites importants (type 5000 à 10000 pages, dont le crawl peut durer entre 3 et 6 heures)

Dans quelle mesure pensez vous qu'il est possible de réduire ce délai, sans que le crawl d'un site donné ne soit jugé abusif, et vous même, à partir de quel type de crawl jugez-vous un crawl "abusif" ? (le crawl est text only évidemment)
J'imagine que le cas de figure change selon le type de site (un gros portail ne se préoccupera pas beaucoup de ça, privilégiant un référencement maximum ?)

Bref si vous avez des expériences la-dessus, je suis intéressé, même si ça sort un peu du contexte du forum (d'ailleurs si j'ai posté dans le mauvais sous forum, n'hésitez pas à déplacer).

Cordialement,


JanoLapin
WRInaute passionné
WRInaute passionné
 
Messages: 605
Inscription: Dim Sep 21, 2008 0:44

Message le Jeu Nov 20, 2008 13:18

Un certain nombre de tes concurrents donnent d'eux-mêmes de nombreuses infos sur les caractéristiques de leurs crawlers, des réglages et paramètres en question, et de leurs rapports avec les webmaster.

--> as-tu été voir ?
--> pourquoi ne pas faire la même chose: un ministe avec tout ce type d'nfo, et des possibilités d'échanges avec les webmaster ?

Ce serait intéressant aussi que tu te présentes, ainsi que ton projet....

Aral
Nouveau WRInaute
 
Messages: 2
Inscription: Jeu Nov 20, 2008 11:45

Message le Jeu Nov 20, 2008 13:35

JanoLapin a écrit:Un certain nombre de tes concurrents donnent d'eux-mêmes de nombreuses infos sur les caractéristiques de leurs crawlers, des réglages et paramètres en question, et de leurs rapports avec les webmaster.

--> as-tu été voir ?


J'ai des problématiques différentes de celles de la plupart des crawlers concurrents, qui n'ont pas des contraintes de crawl en durée. Concrêtement, notre objectif est de crawler de manière répétitive, c'est à dire tous les jours, un certain nombre de sites, on ne peut donc pas se permettre des délais importants entre les requêtes (à la différence de certains crawlers qui "queue" les requêtes et ne se préoccupent pas de savoir si la requête suivante sur un site donné est faite 10 secondes ou 10 minutes plus tard)

--> pourquoi ne pas faire la même chose: un ministe avec tout ce type d'nfo, et des possibilités d'échanges avec les webmaster ?


J'ai pas compris ce que tu voulais dire

Ce serait intéressant aussi que tu te présentes, ainsi que ton projet....


Je travaille dans l'univers de la veille, et mon projet (ce n'est d'ailleurs pas un projet mais plus une réflexion sur le fonctionnement de notre crawler) est détaillé ci-dessus. Je ne peux pas vous en dire plus puisque je ne m'occupe pas directement de tout ça.


Leonick
WRInaute accro
WRInaute accro
 
Messages: 12380
Inscription: Dim Aoû 08, 2004 20:24

Re: [Crawler] Code de bonne conduite des visites de crawlers

Message le Ven Nov 21, 2008 23:07

Aral a écrit:à partir de quel type de crawl jugez-vous un crawl "abusif" ?
à partir du moment où je n'ai aucune information sur le robot ou qu'il ne m'apporte rien (genre pas la bonne thématique, langue, etc...)


Formation recommandée sur ce thème :

Formation Référencement naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.

Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.

Lectures recommandées sur ce thème :



Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités