Quelle politique face aux bad bots (scrapper) ?
2 messages
• Page 1 sur 1
Consultez la formation à Google Analytics de WebRankInfo / Ranking Metrics
- the wanderer
- Nouveau WRInaute

- Messages: 13
- Inscription: 27 Oct 2006
Quelle politique face aux bad bots (scrapper) ?
Bonjour,
Un de mes sites (un blog Dotclear hébergé sur un mutualisé 1&1) et régulièrement visité par un bot.
C'est un service un peu équivalent a netvibes permettant a l'utilisateur d'afficher des flux choisis sur sa page. (je n'ai pas approfondi)
Le bot passe toute le 20 minutes sur mon site, et à chaque passe, il charge le flux plus de 1000 fois..
Résultat, mon site est down 3 fois par heure pendant le temps ou le crawl s'effectue.
Je l'ai inclus dans mon fichier robots.txt :
Mais il ne respecte pas les directives.
J'ai contacté le webmaster, mais il considère que si je ne lui donne pas l'URL de mon site, il ne peut rien faire pour moi.
Je lui rétorque que mon site etant un site standard, sur un hébérgement standard, le problème ne doit pas être traité au cas par cas, mais qu'il devrait rendre son crawl (en fait c'est un Wget géré par un cron) compliant avec le fichier robots.txt.
sa réponse :
Alors je peux faire un .htaccess du type :
mais je me demandais, en règle générale, quelle attitude vous adoptiez face à ces bots qui se multiplient et qui commence à énerver de plus en plus de monde. (voir http://incredibill.blogspot.com/ ) ?
(Je ne donne pas le nom du site, je suis pas sur que cela soit permis ici, et puis des crawlers insane, il y en a d'autres)
Un de mes sites (un blog Dotclear hébergé sur un mutualisé 1&1) et régulièrement visité par un bot.
C'est un service un peu équivalent a netvibes permettant a l'utilisateur d'afficher des flux choisis sur sa page. (je n'ai pas approfondi)
Le bot passe toute le 20 minutes sur mon site, et à chaque passe, il charge le flux plus de 1000 fois..
Résultat, mon site est down 3 fois par heure pendant le temps ou le crawl s'effectue.
Je l'ai inclus dans mon fichier robots.txt :
- Code: Tout sélectionner
User-agent: nom_du_bot
Disallow: /
Mais il ne respecte pas les directives.
J'ai contacté le webmaster, mais il considère que si je ne lui donne pas l'URL de mon site, il ne peut rien faire pour moi.
Je lui rétorque que mon site etant un site standard, sur un hébérgement standard, le problème ne doit pas être traité au cas par cas, mais qu'il devrait rendre son crawl (en fait c'est un Wget géré par un cron) compliant avec le fichier robots.txt.
sa réponse :
Par ailleurs, à confirmer, mais des services similaires comme netvibes ne tiennent pas comptent du robots.txt il me semble. (Attention toutefois je ne dis pas que si eux ne le font pas, je ne devrais pas le faire aussi)
Alors je peux faire un .htaccess du type :
- Code: Tout sélectionner
order allow,deny
allow from all
deny from 82.234.98.112
mais je me demandais, en règle générale, quelle attitude vous adoptiez face à ces bots qui se multiplient et qui commence à énerver de plus en plus de monde. (voir http://incredibill.blogspot.com/ ) ?
(Je ne donne pas le nom du site, je suis pas sur que cela soit permis ici, et puis des crawlers insane, il y en a d'autres)
-

rog - WRInaute passionné

- Messages: 1662
- Inscription: 21 Sep 2006
si ton site est down à cause de lui c'est du denial of service
moi je me suis fait scanner par un imbecile qui utilisait acunetix
le mec m'a scanné 5 fois (comme si une fois ça suffisait pas) sur mes 2 services online il a ouvert 16000 pages
c'est la derniere fois que quelqu'un me scannera avec acunetix, j'ai les query string et je vais pondre un filtre
pour les bots, c'est pareil, faut ouvrir les logs et trouver un unic id
rog
moi je me suis fait scanner par un imbecile qui utilisait acunetix
le mec m'a scanné 5 fois (comme si une fois ça suffisait pas) sur mes 2 services online il a ouvert 16000 pages
c'est la derniere fois que quelqu'un me scannera avec acunetix, j'ai les query string et je vais pondre un filtre
pour les bots, c'est pareil, faut ouvrir les logs et trouver un unic id
rog
2 messages
• Page 1 sur 1
Formation recommandée sur ce thème :
Formation Google Analytics : en 2 jours, apprenez comment exploiter l'essentiel des possibilités de l'outil de mesure d'audience de Google. Formation animée par les experts Google Analytics de Ranking Metrics.
Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.
Lectures recommandées sur ce thème :
- Comment les bots vont réagir face à un lien random ?
- quelle politique d' échange de liens
- Quelle politique pour les backlinks pour 1 bon référencement
- Bad Request sur UR
- Bad bot mais efficace ...
- Bad request avec Lynx
- Problème URL rewriting - Bad Request
- [résolu - humhum] Hack -> Bad Behavior...
- [po résolu] 'bad flag delimiters' et syntaxe
- Gmail notifier : cannot read your message (bad data;1)
- Chercher des visages dans Google Images - 28-05-2007
- GlobalWarming Awareness2007 : dommages collatéraux chez Wikipedia - 22-01-2007
- Google contre les spywares et les adwares - 21-05-2004
- Web 2.0 et au-delà, le livre de David Fayon (préface Pierre Kosciusko-Morizet) - 25-08-2008
- Ayez une bonne politique de format d'URL : conseil n°6 en référencement - 04-08-2008
Consultez la description détaillée des produits ou services de Google suivants : Google Deskbar
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 2 invités
