Quelle politique face aux bad bots (scrapper) ?
2 messages • Page 1 sur 1
Consultez la formation à Google Analytics de WebRankInfo / Ranking Metrics
- the wanderer
- Nouveau WRInaute
- Messages: 13
- Inscription: Ven Oct 27, 2006 14:17
Quelle politique face aux bad bots (scrapper) ?
Bonjour,
Un de mes sites (un blog Dotclear hébergé sur un mutualisé 1&1) et régulièrement visité par un bot.
C'est un service un peu équivalent a netvibes permettant a l'utilisateur d'afficher des flux choisis sur sa page. (je n'ai pas approfondi)
Le bot passe toute le 20 minutes sur mon site, et à chaque passe, il charge le flux plus de 1000 fois..
Résultat, mon site est down 3 fois par heure pendant le temps ou le crawl s'effectue.
Je l'ai inclus dans mon fichier robots.txt :
Mais il ne respecte pas les directives.
J'ai contacté le webmaster, mais il considère que si je ne lui donne pas l'URL de mon site, il ne peut rien faire pour moi.
Je lui rétorque que mon site etant un site standard, sur un hébérgement standard, le problème ne doit pas être traité au cas par cas, mais qu'il devrait rendre son crawl (en fait c'est un Wget géré par un cron) compliant avec le fichier robots.txt.
sa réponse :
Alors je peux faire un .htaccess du type :
mais je me demandais, en règle générale, quelle attitude vous adoptiez face à ces bots qui se multiplient et qui commence à énerver de plus en plus de monde. (voir http://incredibill.blogspot.com/ ) ?
(Je ne donne pas le nom du site, je suis pas sur que cela soit permis ici, et puis des crawlers insane, il y en a d'autres)
Un de mes sites (un blog Dotclear hébergé sur un mutualisé 1&1) et régulièrement visité par un bot.
C'est un service un peu équivalent a netvibes permettant a l'utilisateur d'afficher des flux choisis sur sa page. (je n'ai pas approfondi)
Le bot passe toute le 20 minutes sur mon site, et à chaque passe, il charge le flux plus de 1000 fois..
Résultat, mon site est down 3 fois par heure pendant le temps ou le crawl s'effectue.
Je l'ai inclus dans mon fichier robots.txt :
- Code: Tout sélectionner
User-agent: nom_du_bot
Disallow: /
Mais il ne respecte pas les directives.
J'ai contacté le webmaster, mais il considère que si je ne lui donne pas l'URL de mon site, il ne peut rien faire pour moi.
Je lui rétorque que mon site etant un site standard, sur un hébérgement standard, le problème ne doit pas être traité au cas par cas, mais qu'il devrait rendre son crawl (en fait c'est un Wget géré par un cron) compliant avec le fichier robots.txt.
sa réponse :
Par ailleurs, à confirmer, mais des services similaires comme netvibes ne tiennent pas comptent du robots.txt il me semble. (Attention toutefois je ne dis pas que si eux ne le font pas, je ne devrais pas le faire aussi)
Alors je peux faire un .htaccess du type :
- Code: Tout sélectionner
order allow,deny
allow from all
deny from 82.234.98.112
mais je me demandais, en règle générale, quelle attitude vous adoptiez face à ces bots qui se multiplient et qui commence à énerver de plus en plus de monde. (voir http://incredibill.blogspot.com/ ) ?
(Je ne donne pas le nom du site, je suis pas sur que cela soit permis ici, et puis des crawlers insane, il y en a d'autres)
si ton site est down à cause de lui c'est du denial of service
moi je me suis fait scanner par un imbecile qui utilisait acunetix
le mec m'a scanné 5 fois (comme si une fois ça suffisait pas) sur mes 2 services online il a ouvert 16000 pages
c'est la derniere fois que quelqu'un me scannera avec acunetix, j'ai les query string et je vais pondre un filtre
pour les bots, c'est pareil, faut ouvrir les logs et trouver un unic id
rog
moi je me suis fait scanner par un imbecile qui utilisait acunetix
le mec m'a scanné 5 fois (comme si une fois ça suffisait pas) sur mes 2 services online il a ouvert 16000 pages
c'est la derniere fois que quelqu'un me scannera avec acunetix, j'ai les query string et je vais pondre un filtre
pour les bots, c'est pareil, faut ouvrir les logs et trouver un unic id
rog
2 messages • Page 1 sur 1
Formation recommandée sur ce thème :
Formation Google Analytics : en 2 jours, apprenez comment exploiter l'essentiel des possibilités de l'outil de mesure d'audience de Google. Formation animée par Julien Coquet, expert certifié officiellement par Google Analytics.
Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.
Lectures recommandées sur ce thème :
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités



le forum