[Crawler] Code de bonne conduite des visites de crawlers
4 messages
• Page 1 sur 1
Consultez la formation au REFERENCEMENT naturel Google de WebRankInfo / Ranking Metrics
- Aral
- Nouveau WRInaute

- Messages: 2
- Inscription: 20 Nov 2008
[Crawler] Code de bonne conduite des visites de crawlers
Bonjour,
J'ai une question à poser, pas par rapport au référencement, mais plutôt pour répondre à une problématique que l'on rencontre dans le cadre du développement d'un crawler.
J'aimerais savoir s'il existe une règle communément admise pour les délais entre les requêtes par les crawlers ?
Pour l'instant, nous avons pour notre crawler limité à 2 secondes le délai minimum entre deux requêtes vers un site. Bien sûr, cela peut poser problème, notamment pour des sites importants (type 5000 à 10000 pages, dont le crawl peut durer entre 3 et 6 heures)
Dans quelle mesure pensez vous qu'il est possible de réduire ce délai, sans que le crawl d'un site donné ne soit jugé abusif, et vous même, à partir de quel type de crawl jugez-vous un crawl "abusif" ? (le crawl est text only évidemment)
J'imagine que le cas de figure change selon le type de site (un gros portail ne se préoccupera pas beaucoup de ça, privilégiant un référencement maximum ?)
Bref si vous avez des expériences la-dessus, je suis intéressé, même si ça sort un peu du contexte du forum (d'ailleurs si j'ai posté dans le mauvais sous forum, n'hésitez pas à déplacer).
Cordialement,
J'ai une question à poser, pas par rapport au référencement, mais plutôt pour répondre à une problématique que l'on rencontre dans le cadre du développement d'un crawler.
J'aimerais savoir s'il existe une règle communément admise pour les délais entre les requêtes par les crawlers ?
Pour l'instant, nous avons pour notre crawler limité à 2 secondes le délai minimum entre deux requêtes vers un site. Bien sûr, cela peut poser problème, notamment pour des sites importants (type 5000 à 10000 pages, dont le crawl peut durer entre 3 et 6 heures)
Dans quelle mesure pensez vous qu'il est possible de réduire ce délai, sans que le crawl d'un site donné ne soit jugé abusif, et vous même, à partir de quel type de crawl jugez-vous un crawl "abusif" ? (le crawl est text only évidemment)
J'imagine que le cas de figure change selon le type de site (un gros portail ne se préoccupera pas beaucoup de ça, privilégiant un référencement maximum ?)
Bref si vous avez des expériences la-dessus, je suis intéressé, même si ça sort un peu du contexte du forum (d'ailleurs si j'ai posté dans le mauvais sous forum, n'hésitez pas à déplacer).
Cordialement,
-

JanoLapin - WRInaute accro

- Messages: 4052
- Inscription: 21 Sep 2008
Un certain nombre de tes concurrents donnent d'eux-mêmes de nombreuses infos sur les caractéristiques de leurs crawlers, des réglages et paramètres en question, et de leurs rapports avec les webmaster.
--> as-tu été voir ?
--> pourquoi ne pas faire la même chose: un ministe avec tout ce type d'nfo, et des possibilités d'échanges avec les webmaster ?
Ce serait intéressant aussi que tu te présentes, ainsi que ton projet....
--> as-tu été voir ?
--> pourquoi ne pas faire la même chose: un ministe avec tout ce type d'nfo, et des possibilités d'échanges avec les webmaster ?
Ce serait intéressant aussi que tu te présentes, ainsi que ton projet....
- Aral
- Nouveau WRInaute

- Messages: 2
- Inscription: 20 Nov 2008
JanoLapin a écrit:Un certain nombre de tes concurrents donnent d'eux-mêmes de nombreuses infos sur les caractéristiques de leurs crawlers, des réglages et paramètres en question, et de leurs rapports avec les webmaster.
--> as-tu été voir ?
J'ai des problématiques différentes de celles de la plupart des crawlers concurrents, qui n'ont pas des contraintes de crawl en durée. Concrêtement, notre objectif est de crawler de manière répétitive, c'est à dire tous les jours, un certain nombre de sites, on ne peut donc pas se permettre des délais importants entre les requêtes (à la différence de certains crawlers qui "queue" les requêtes et ne se préoccupent pas de savoir si la requête suivante sur un site donné est faite 10 secondes ou 10 minutes plus tard)
--> pourquoi ne pas faire la même chose: un ministe avec tout ce type d'nfo, et des possibilités d'échanges avec les webmaster ?
J'ai pas compris ce que tu voulais dire
Ce serait intéressant aussi que tu te présentes, ainsi que ton projet....
Je travaille dans l'univers de la veille, et mon projet (ce n'est d'ailleurs pas un projet mais plus une réflexion sur le fonctionnement de notre crawler) est détaillé ci-dessus. Je ne peux pas vous en dire plus puisque je ne m'occupe pas directement de tout ça.
-

Leonick - WRInaute accro

- Messages: 19592
- Inscription: 8 Aoû 2004
Re: [Crawler] Code de bonne conduite des visites de crawlers
à partir du moment où je n'ai aucune information sur le robot ou qu'il ne m'apporte rien (genre pas la bonne thématique, langue, etc...)Aral a écrit:à partir de quel type de crawl jugez-vous un crawl "abusif" ?
4 messages
• Page 1 sur 1
Formation recommandée sur ce thème :
Formation REFERENCEMENT naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.
Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.
Lectures recommandées sur ce thème :
- Code de conduite d'un webmaster.
- Zero de conduite, Google m'a mis à la porte...
- Bon livre sur la conception et conduite d'un projet web ?
- Avis sur conduite à tenir pour nom de domaine ressemblant...
- webalizer versus direc-stat et conduite des visiteurs=???
- crawlers google ?
- Session php et crawlers
- adresse ip des crawlers ??
- Les crawlers jaune
- Tracking des crawlers
Consultez la description détaillée des produits ou services de Google suivants : Google Code
- Analyse de l'entête HTTP
Cet outil vous permet de connaître le code HTTP renvoyé par le serveur pour une page donnée.
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités
