Bloquer les aspirateurs avec robots.txt

Consultez la formation à Google Analytics de WebRankInfo / Ranking Metrics

3ul3r
WRInaute discret
WRInaute discret
 
Messages: 84
Inscription: 22 Fév 2009

Bloquer les aspirateurs avec robots.txt

Message le Mer Aoû 19, 2009 19:47

Bonjour à tous,

Je cherche à bloquer les principaux aspirateurs/web copier/off-line browser et autre joyeusté qui bouffe ma bande passante (et peuvent causer des problèmes de droit d'auteur).
J'ai vu que WRI him-self utilise robots.txt (WRI) en tant que barrière. Je peux directement copié-collé cette liste, elle ne contient que des user-agent d'aspirateurs ?

PS : Je sais que certains aspirateurs permettent une option pour ignorer les règles de robots.txt, et que, si une personne veut à tout prix aspirer un site, elle y arrivera. Mais si les principaux aspirateurs sont bloqués par défaut, ca découragera la majorité, et je déjà serais content.


Furtif
WRInaute impliqué
WRInaute impliqué
 
Messages: 655
Inscription: 9 Aoû 2005

Re: Bloquer les aspirateurs avec robots.txt

Message le Mer Aoû 19, 2009 21:47

cool le piege a robot...

:mrgreen:

skippyzrnr
WRInaute impliqué
WRInaute impliqué
 
Messages: 664
Inscription: 11 Jan 2005

Re: Bloquer les aspirateurs avec robots.txt

Message le Jeu Aoû 20, 2009 8:51

Le robots.txt s'adresse au programmes qui jouent le jeu... et je suis pas si sûr que ces programmes d'aspiration le fasse.
Une protection du même type dans un .htaccess est bien plus fiable, et pour ceux qui changent le user-agent, l'idéal est encore un blocage par ip...
Mais comme tu le dis si bien si une personne veut à tout prix aspirer un site, elle y arrivera.

3ul3r
WRInaute discret
WRInaute discret
 
Messages: 84
Inscription: 22 Fév 2009

Re: Bloquer les aspirateurs avec robots.txt

Message le Jeu Aoû 20, 2009 12:34

Merci de vos réponses, je vais opter pour un blocage avec le htaccess, en plus du robots.txt

3ul3r
WRInaute discret
WRInaute discret
 
Messages: 84
Inscription: 22 Fév 2009

Re: Bloquer les aspirateurs avec robots.txt

Message le Jeu Aoû 20, 2009 13:47

On trouve un peu partout une liste des user-agents d'aspirateurs à bloquer, datant de 2005 (et provenant du site www.toulouse-renaissance.net, maintenant en parking).

N'y aurait-il pas une liste plus récente ?

3ul3r
WRInaute discret
WRInaute discret
 
Messages: 84
Inscription: 22 Fév 2009

Re: Bloquer les aspirateurs avec robots.txt

Message le Jeu Aoû 20, 2009 15:01

Je viens de lire une bonne partie des topics WRI parlant des blocages d'aspirateurs Web. La méthode la plus efficace ressortant est de limiter, avec un script PHP, le nombre de chargement de page par minute, et de bannir (au moins temporairement) l'IP si cette limite est dépassé.

Cependant, le site web dont je suis admin contient énormément de petits documents PDF (dont une partie c'est faite aspirée pas plus tard que hier soir :/). Ce n'est donc pas une limitation des chargements de page qu'il me faudrait, mais une limitation du nombre de hits par minute, ou une limitation de bande passante allouée par minute et par IP.
Comment mettre en place un tel système ? htaccess permet ça ?


Si vous avez aimé cette discussion, partagez-la sur vos réseaux sociaux préférés :

Formation recommandée sur ce thème :

Formation Google Analytics : en 2 jours, apprenez comment exploiter l'essentiel des possibilités de l'outil de mesure d'audience de Google. Formation animée par les experts Google Analytics de Ranking Metrics.

Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.

Lectures recommandées sur ce thème :



Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités