[Crawler] Code de bonne conduite des visites de crawlers
4 messages • Page 1 sur 1
Consultez la formation au référencement naturel Google de WebRankInfo / Ranking Metrics
[Crawler] Code de bonne conduite des visites de crawlers
Bonjour,
J'ai une question à poser, pas par rapport au référencement, mais plutôt pour répondre à une problématique que l'on rencontre dans le cadre du développement d'un crawler.
J'aimerais savoir s'il existe une règle communément admise pour les délais entre les requêtes par les crawlers ?
Pour l'instant, nous avons pour notre crawler limité à 2 secondes le délai minimum entre deux requêtes vers un site. Bien sûr, cela peut poser problème, notamment pour des sites importants (type 5000 à 10000 pages, dont le crawl peut durer entre 3 et 6 heures)
Dans quelle mesure pensez vous qu'il est possible de réduire ce délai, sans que le crawl d'un site donné ne soit jugé abusif, et vous même, à partir de quel type de crawl jugez-vous un crawl "abusif" ? (le crawl est text only évidemment)
J'imagine que le cas de figure change selon le type de site (un gros portail ne se préoccupera pas beaucoup de ça, privilégiant un référencement maximum ?)
Bref si vous avez des expériences la-dessus, je suis intéressé, même si ça sort un peu du contexte du forum (d'ailleurs si j'ai posté dans le mauvais sous forum, n'hésitez pas à déplacer).
Cordialement,
J'ai une question à poser, pas par rapport au référencement, mais plutôt pour répondre à une problématique que l'on rencontre dans le cadre du développement d'un crawler.
J'aimerais savoir s'il existe une règle communément admise pour les délais entre les requêtes par les crawlers ?
Pour l'instant, nous avons pour notre crawler limité à 2 secondes le délai minimum entre deux requêtes vers un site. Bien sûr, cela peut poser problème, notamment pour des sites importants (type 5000 à 10000 pages, dont le crawl peut durer entre 3 et 6 heures)
Dans quelle mesure pensez vous qu'il est possible de réduire ce délai, sans que le crawl d'un site donné ne soit jugé abusif, et vous même, à partir de quel type de crawl jugez-vous un crawl "abusif" ? (le crawl est text only évidemment)
J'imagine que le cas de figure change selon le type de site (un gros portail ne se préoccupera pas beaucoup de ça, privilégiant un référencement maximum ?)
Bref si vous avez des expériences la-dessus, je suis intéressé, même si ça sort un peu du contexte du forum (d'ailleurs si j'ai posté dans le mauvais sous forum, n'hésitez pas à déplacer).
Cordialement,
Un certain nombre de tes concurrents donnent d'eux-mêmes de nombreuses infos sur les caractéristiques de leurs crawlers, des réglages et paramètres en question, et de leurs rapports avec les webmaster.
--> as-tu été voir ?
--> pourquoi ne pas faire la même chose: un ministe avec tout ce type d'nfo, et des possibilités d'échanges avec les webmaster ?
Ce serait intéressant aussi que tu te présentes, ainsi que ton projet....
--> as-tu été voir ?
--> pourquoi ne pas faire la même chose: un ministe avec tout ce type d'nfo, et des possibilités d'échanges avec les webmaster ?
Ce serait intéressant aussi que tu te présentes, ainsi que ton projet....
JanoLapin a écrit:Un certain nombre de tes concurrents donnent d'eux-mêmes de nombreuses infos sur les caractéristiques de leurs crawlers, des réglages et paramètres en question, et de leurs rapports avec les webmaster.
--> as-tu été voir ?
J'ai des problématiques différentes de celles de la plupart des crawlers concurrents, qui n'ont pas des contraintes de crawl en durée. Concrêtement, notre objectif est de crawler de manière répétitive, c'est à dire tous les jours, un certain nombre de sites, on ne peut donc pas se permettre des délais importants entre les requêtes (à la différence de certains crawlers qui "queue" les requêtes et ne se préoccupent pas de savoir si la requête suivante sur un site donné est faite 10 secondes ou 10 minutes plus tard)
--> pourquoi ne pas faire la même chose: un ministe avec tout ce type d'nfo, et des possibilités d'échanges avec les webmaster ?
J'ai pas compris ce que tu voulais dire
Ce serait intéressant aussi que tu te présentes, ainsi que ton projet....
Je travaille dans l'univers de la veille, et mon projet (ce n'est d'ailleurs pas un projet mais plus une réflexion sur le fonctionnement de notre crawler) est détaillé ci-dessus. Je ne peux pas vous en dire plus puisque je ne m'occupe pas directement de tout ça.
Re: [Crawler] Code de bonne conduite des visites de crawlers
à partir du moment où je n'ai aucune information sur le robot ou qu'il ne m'apporte rien (genre pas la bonne thématique, langue, etc...)Aral a écrit:à partir de quel type de crawl jugez-vous un crawl "abusif" ?
4 messages • Page 1 sur 1
Formation recommandée sur ce thème :
Formation Référencement naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.
Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.
Lectures recommandées sur ce thème :
- Yahoo Slurp et autres robots d'indexation de Yahoo
- Les crawlers de Yahoo!
- GoogleStats : analyse temps réel des visites de Google sur votre site
- Googlebot, le robot d'indexation de Google
- Aux USA, Gmail dépasse YouTube en nombre de visiteurs
- Etude de Googlebot, le robot crawler de Google (Fresh Bot, Deep Bot)
- Configurer les options de passage de Googlebot sur son site
- Google crawle les fichiers CSS
- Comment analyser les visites provenant de Google SearchWiki
- Le système de crawl de Google en 2008
Consultez la description détaillée des produits ou services de Google suivants : Google Code
- Analyse de l'entête HTTP
Cet outil vous permet de connaître le code HTTP renvoyé par le serveur pour une page donnée.
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités




le forum