Bloquer les aspirateurs avec robots.txt
6 messages
• Page 1 sur 1
Consultez la formation à Google Analytics de WebRankInfo / Ranking Metrics
- 3ul3r
- WRInaute discret

- Messages: 84
- Inscription: 22 Fév 2009
Bloquer les aspirateurs avec robots.txt
Bonjour à tous,
Je cherche à bloquer les principaux aspirateurs/web copier/off-line browser et autre joyeusté qui bouffe ma bande passante (et peuvent causer des problèmes de droit d'auteur).
J'ai vu que WRI him-self utilise robots.txt (WRI) en tant que barrière. Je peux directement copié-collé cette liste, elle ne contient que des user-agent d'aspirateurs ?
PS : Je sais que certains aspirateurs permettent une option pour ignorer les règles de robots.txt, et que, si une personne veut à tout prix aspirer un site, elle y arrivera. Mais si les principaux aspirateurs sont bloqués par défaut, ca découragera la majorité, et je déjà serais content.
Je cherche à bloquer les principaux aspirateurs/web copier/off-line browser et autre joyeusté qui bouffe ma bande passante (et peuvent causer des problèmes de droit d'auteur).
J'ai vu que WRI him-self utilise robots.txt (WRI) en tant que barrière. Je peux directement copié-collé cette liste, elle ne contient que des user-agent d'aspirateurs ?
PS : Je sais que certains aspirateurs permettent une option pour ignorer les règles de robots.txt, et que, si une personne veut à tout prix aspirer un site, elle y arrivera. Mais si les principaux aspirateurs sont bloqués par défaut, ca découragera la majorité, et je déjà serais content.
- skippyzrnr
- WRInaute impliqué

- Messages: 664
- Inscription: 11 Jan 2005
Re: Bloquer les aspirateurs avec robots.txt
Le robots.txt s'adresse au programmes qui jouent le jeu... et je suis pas si sûr que ces programmes d'aspiration le fasse.
Une protection du même type dans un .htaccess est bien plus fiable, et pour ceux qui changent le user-agent, l'idéal est encore un blocage par ip...
Mais comme tu le dis si bien si une personne veut à tout prix aspirer un site, elle y arrivera.
Une protection du même type dans un .htaccess est bien plus fiable, et pour ceux qui changent le user-agent, l'idéal est encore un blocage par ip...
Mais comme tu le dis si bien si une personne veut à tout prix aspirer un site, elle y arrivera.
- 3ul3r
- WRInaute discret

- Messages: 84
- Inscription: 22 Fév 2009
Re: Bloquer les aspirateurs avec robots.txt
On trouve un peu partout une liste des user-agents d'aspirateurs à bloquer, datant de 2005 (et provenant du site www.toulouse-renaissance.net, maintenant en parking).
N'y aurait-il pas une liste plus récente ?
N'y aurait-il pas une liste plus récente ?
- 3ul3r
- WRInaute discret

- Messages: 84
- Inscription: 22 Fév 2009
Re: Bloquer les aspirateurs avec robots.txt
Je viens de lire une bonne partie des topics WRI parlant des blocages d'aspirateurs Web. La méthode la plus efficace ressortant est de limiter, avec un script PHP, le nombre de chargement de page par minute, et de bannir (au moins temporairement) l'IP si cette limite est dépassé.
Cependant, le site web dont je suis admin contient énormément de petits documents PDF (dont une partie c'est faite aspirée pas plus tard que hier soir :/). Ce n'est donc pas une limitation des chargements de page qu'il me faudrait, mais une limitation du nombre de hits par minute, ou une limitation de bande passante allouée par minute et par IP.
Comment mettre en place un tel système ? htaccess permet ça ?
Cependant, le site web dont je suis admin contient énormément de petits documents PDF (dont une partie c'est faite aspirée pas plus tard que hier soir :/). Ce n'est donc pas une limitation des chargements de page qu'il me faudrait, mais une limitation du nombre de hits par minute, ou une limitation de bande passante allouée par minute et par IP.
Comment mettre en place un tel système ? htaccess permet ça ?
6 messages
• Page 1 sur 1
Formation recommandée sur ce thème :
Formation Google Analytics : en 2 jours, apprenez comment exploiter l'essentiel des possibilités de l'outil de mesure d'audience de Google. Formation animée par les experts Google Analytics de Ranking Metrics.
Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.
Lectures recommandées sur ce thème :
- Bloquer les Aspirateurs de sites
- Aspirateurs, sitemaps et robots...
- les aspirateurs et robots.txt
- liste de robots indésirables ou aspirateurs de sites
- Partenariat Affiliation faire-part et robots aspirateurs
- robots.txt incapable de bloquer ces robots :
- Bloquer robots sans en-têtes
- Bloquer flux RSS dans robots.txt ?
- Bloquer index.php dans robots.txt
- Comment bloquer les pdfs dans le robots.txt
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités

