Script php Anti aspirateur.
-

Renardrouge - Nouveau WRInaute

- Messages: 47
- Inscription: 19 Nov 2002
Script php Anti aspirateur.
Hello les webmasters,
J'ai un petit script php anti aspirateur pour ceux que ca interessent éventuellement:
C'est léger:
- 30 lignes de codes
- 3 requetes Mysql.
Ca fait quoi:
- Ca bloque les adresses IP qui demandent des pages php a un trop grand ryhtme (beaucoup plus qu'un visiteur normal).
- ce n'est en rien basé sur les user agent/robots.txt car tous les aspirateurs permettent de faire n'importe quoi.
Ca ne bloque pas les robots:
- google est passé hier chez moi sans problème, deepindex aussi, scooter aussi.... bon je les connais pas tous mais aucun robot n'a été arrété, car les robots ne font pas des accès bourrins sur les sites (au contraire des aspirateurs qui sont hyperviolents dans le genre)..
Ca marche:
- jusqu'a maintenant il a bloqué: Téléport pro/ Httrack / Memoweb / Webreaper / Offline Explorer. Ca marche logiquement avec les autres aussi.
(je mettrais l'adresse s'il y a de demande, ou 1 mp et je vous envoie l'url).
Vos commentaires sur le sujet (pour ceux que ca interessent bien sur) sont les rudement bienvenus pour l'améliorer encore.
EDIT du 18/7: je mets l'url ca m'évite de répondre en privé au mp qui me le demande toujours de temps à autre: http://www.1001bd.com/stop_aspirateurs
Pour infos: Des liens commencent à aparaitre sur les sites de ressources pour webmaster, il est présent sur 01.net, sur le support d'amen.fr et il devrait être reppris sur le CD dans quelques magazines spécialisés. Si vous le voyez envoyez moi un scan du mag, ca me fera toujours plaisir.
J'ai un petit script php anti aspirateur pour ceux que ca interessent éventuellement:
C'est léger:
- 30 lignes de codes
- 3 requetes Mysql.
Ca fait quoi:
- Ca bloque les adresses IP qui demandent des pages php a un trop grand ryhtme (beaucoup plus qu'un visiteur normal).
- ce n'est en rien basé sur les user agent/robots.txt car tous les aspirateurs permettent de faire n'importe quoi.
Ca ne bloque pas les robots:
- google est passé hier chez moi sans problème, deepindex aussi, scooter aussi.... bon je les connais pas tous mais aucun robot n'a été arrété, car les robots ne font pas des accès bourrins sur les sites (au contraire des aspirateurs qui sont hyperviolents dans le genre)..
Ca marche:
- jusqu'a maintenant il a bloqué: Téléport pro/ Httrack / Memoweb / Webreaper / Offline Explorer. Ca marche logiquement avec les autres aussi.
(je mettrais l'adresse s'il y a de demande, ou 1 mp et je vous envoie l'url).
Vos commentaires sur le sujet (pour ceux que ca interessent bien sur) sont les rudement bienvenus pour l'améliorer encore.
EDIT du 18/7: je mets l'url ca m'évite de répondre en privé au mp qui me le demande toujours de temps à autre: http://www.1001bd.com/stop_aspirateurs
Pour infos: Des liens commencent à aparaitre sur les sites de ressources pour webmaster, il est présent sur 01.net, sur le support d'amen.fr et il devrait être reppris sur le CD dans quelques magazines spécialisés. Si vous le voyez envoyez moi un scan du mag, ca me fera toujours plaisir.
Dernière édition par Renardrouge le Ven Juil 18, 2003 0:34, édité 1 fois.
- Nitou
- WRInaute impliqué

- Messages: 929
- Inscription: 1 Déc 2002
Et bien les aspirateurs comme leur nom l'indique, aspire le site web, pas seulement une page, le plus souvent, le site complet, et parfois le site peut faire beaucoup de mégas-octets, imaginez que tout le monde aspire votre site... l'hebergeur qui souvent limite le transfert de données fait payer le surplus... voila en quoi c'est génant.
-

Kmacleod - WRInaute accro

- Messages: 3418
- Inscription: 28 Nov 2002
Les aspirateurs consomment de la bande passante, ou des hits mais n'apportent rien en terme de visite, surtout si c'est pour aspirer des adresses mails dans le but de faire du spam (envoil d'emails non désirés)
Un script php c'est bien, mais celà peut aussi être fait avec un fichier .htaccess (Voir la réponse de Dan)
Ce script serait donc bien pour ceux qui n'ont pas acces au fichier .htaccess (hergement gratuit ou mutualisés généralement, free, lycos; ifrance, wanadoo ...)
Un script php c'est bien, mais celà peut aussi être fait avec un fichier .htaccess (Voir la réponse de Dan)
Ce script serait donc bien pour ceux qui n'ont pas acces au fichier .htaccess (hergement gratuit ou mutualisés généralement, free, lycos; ifrance, wanadoo ...)
-

Monique - WRInaute passionné

- Messages: 1545
- Inscription: 16 Sep 2002
Nitou a écrit:Et bien les aspirateurs comme leur nom l'indique, aspire le site web, pas seulement une page, le plus souvent, le site complet
Evidemment... il ne me serait jamais venu à l'idée d'aspirer un site complet, mais si certains le font, effectivement ce doit être pénalisant.
- Jocelyn
- WRInaute impliqué

- Messages: 564
- Inscription: 6 Nov 2002
Bonjour,
je viens de voter. J'ai coché "Les aspirateurs de sites sont très pratiques", cependant je voulais complèter ma réponse.
Je pense que c'est très pratique pour un utilisateur, ça évite de faire "Enregistrer" sur chaque page.
Cependant, pour le webmaster et celui qui gère le serveur, ça peut créer plein de problèmes :
- gaspillage de bande passante
- vol de contenu grandement facilité
...
Comme le dit Monique, j'utilisais régulièrement un aspirateur de sites lorsque je n'avais qu'une connexion modem. Evidemment, je l'utilisais intelligemment, de façon à disposer offline des quelques pages qui m'intéressaient. Surtout pas pour "pomper" tout un site comme un "bourrin".
Il y a quelques temps, j'avais posté un message sur les aspirateurs d'adresses email. J'ai installé sur mon site un script qui génère un nombre infini de pages web aléatoires remplies avec plein d'adresses email inexistantes. La page qui exécute ce script est interdite d'accès (robots.txt), et n'est accessible que par un lien invisible (il n'y a pas de texte au milieu de la balise A).
Donc les seuls visiteurs sur ces pages sont les aspirateurs très indélicats d'emails ou de pages web. J'ai essayé moi-même d'aspirer mon site, je me suis retrouvé avec des centaines de pages web parasites en quelques minutes. Exactement ce que je voulais
Personnellement, je n'utilise presque plus les aspirateurs de sites, maintenant que j'ai une connexion permanente à Internet. Mieux vaut revisiter la page web pour trouver des informations à jour.
Jocelyn
je viens de voter. J'ai coché "Les aspirateurs de sites sont très pratiques", cependant je voulais complèter ma réponse.
Je pense que c'est très pratique pour un utilisateur, ça évite de faire "Enregistrer" sur chaque page.
Cependant, pour le webmaster et celui qui gère le serveur, ça peut créer plein de problèmes :
- gaspillage de bande passante
- vol de contenu grandement facilité
...
Comme le dit Monique, j'utilisais régulièrement un aspirateur de sites lorsque je n'avais qu'une connexion modem. Evidemment, je l'utilisais intelligemment, de façon à disposer offline des quelques pages qui m'intéressaient. Surtout pas pour "pomper" tout un site comme un "bourrin".
Il y a quelques temps, j'avais posté un message sur les aspirateurs d'adresses email. J'ai installé sur mon site un script qui génère un nombre infini de pages web aléatoires remplies avec plein d'adresses email inexistantes. La page qui exécute ce script est interdite d'accès (robots.txt), et n'est accessible que par un lien invisible (il n'y a pas de texte au milieu de la balise A).
Donc les seuls visiteurs sur ces pages sont les aspirateurs très indélicats d'emails ou de pages web. J'ai essayé moi-même d'aspirer mon site, je me suis retrouvé avec des centaines de pages web parasites en quelques minutes. Exactement ce que je voulais
Personnellement, je n'utilise presque plus les aspirateurs de sites, maintenant que j'ai une connexion permanente à Internet. Mieux vaut revisiter la page web pour trouver des informations à jour.
Jocelyn
-

hetzeld - WRInaute passionné

- Messages: 2209
- Inscription: 2 Déc 2002
Kmacleod a écrit:Un script php c'est bien, mais celà peut aussi être fait avec un fichier .htaccess (Voir la réponse de Dan)
Ce script serait donc bien pour ceux qui n'ont pas acces au fichier .htaccess (hergement gratuit ou mutualisés généralement, free, lycos; ifrance, wanadoo ...)
Kmacleod,
C'est cool de faire ma promo
Il faut reconnaître que la méthode .htaccess a une restriction: de plus en plus de logiciels aspirateurs permettent de définir le USER_AGENT ou de le masquer. Dans ce cas, les règles de réécriture ne fonctionnent pas, sauf pour ceux qui utilisent le logiciel "tel quel".
Peu de méthodes permettent d'arrêter les collecteurs de sites/email "pros" .
Il est aussi relativement facile de temporiser la collecte (selon l'outil utilisé) pour éviter de se faire bloquer par un script tel que celui proposé ici.
Je ne dis pas que les 2 méthodes sont inefficaces, je dis simplement qu'il est quasi impossible de bloquer quelqu'un de déterminé et compétent... mais ces deux qualités ne sont pas représentatives de la majorité
Dan
-

Renardrouge - Nouveau WRInaute

- Messages: 47
- Inscription: 19 Nov 2002
Monique a écrit:Suis-je naïve...en quoi un aspirateur peut-il être une plaie ?
Avant d'avoir l'ADSL, je me demande comment j'aurais pu faire sans pour utiliser les sites avec des cours, dossiers...
Voila un petit graphique de l'activité d'un serveur en temps normal et avec un aspirateur qui passe.
A toi de déviner à quel moment passe l'aspirateur (et les dégats qu'il fait):

-

Renardrouge - Nouveau WRInaute

- Messages: 47
- Inscription: 19 Nov 2002
hetzeld a écrit:Il est aussi relativement facile de temporiser la collecte (selon l'outil utilisé) pour éviter de se faire bloquer par un script tel que celui proposé ici.
Ben celui là tu as du boulot tout de même. Il est basé sur le nombre de page aspirées dans la dernière minute.
Même avec un très bon aspirateur, configuré au minimum sur 1 seul thread, l'IP se fait vérouiller, et il ne récupère plus que des pages blanches par la suite, le temps qu'il vide sa liste dURL. Je ne dis pas que c'est ultime, mais dans ces conditions aspirer un site important prendra des heures et des heures, ce qui perdra de son intérêt largement.
(et de toute manière comme il aura essayé comme un bourrin le 1er coup, il sera coincé).
Les robots.txt sont complètement inutiles face à eux maintenant, tous les aspi proposent de passer par dessus.
Pareil pour les .htaccess, l'user agent est totalement configurable et se fait passer pour un navigateur classique (quand le gars de mets pas un petit message sympa à la place)
-

ortolojf - WRInaute passionné

- Messages: 1676
- Inscription: 14 Aoû 2002
Au risque de passer pour un malappris...
Pour mon site, les aspirateurs ne peuvent charger que les deux liens de la page d'accueil, car toutes les autres pages nécéssitent des paramètres, qui sont fournis manuellement par le visiteur avec une FORM adaptée.
Sur mon site, un gaspirateur peut quasiment rien faire...
Jean Francois Ortolo
Pour mon site, les aspirateurs ne peuvent charger que les deux liens de la page d'accueil, car toutes les autres pages nécéssitent des paramètres, qui sont fournis manuellement par le visiteur avec une FORM adaptée.
Sur mon site, un gaspirateur peut quasiment rien faire...
Jean Francois Ortolo
-

Renardrouge - Nouveau WRInaute

- Messages: 47
- Inscription: 19 Nov 2002
ortolojf a écrit: Sur mon site, un gaspirateur peut quasiment rien faire...
Effectivement c'est peut-être un peu plus difficile (quoique j'en suis pas certains), mais on ne peut pas contruire tous les sites sur ton modèle de site.
De plus tu as assez peu de page au final, les aspirateurs feront donc pas de gros dégats chez toi.
Quand on utilise un site nuke* et des pages identiques qu'on peut charger avec des paramètres légèrement différents, ou des sessions, c'est la catastrophe. Le truc relit sans arrêt les même pages car il pense que ce ne sont pas les même.
- Eservice
- WRInaute passionné

- Messages: 1463
- Inscription: 18 Sep 2002
Ca ne gêne pas le google full crawl ( beaucoup plus de requête que le daily crawl ) ? Si non, ton script m'interresseRenardrouge a écrit:J'ai un petit script php anti aspirateur pour ceux que ca interessent
Jocelyn a écrit:Il y a quelques temps, j'avais posté un message sur les aspirateurs d'adresses email. J'ai installé sur mon site un script qui génère un nombre infini de pages web aléatoires remplies avec plein d'adresses email inexistantes. La page qui exécute ce script est interdite d'accès (robots.txt), et n'est accessible que par un lien invisible (il n'y a pas de texte au milieu de la balise A).
Donc les seuls visiteurs sur ces pages sont les aspirateurs très indélicats d'emails ou de pages web. J'ai essayé moi-même d'aspirer mon site, je me suis retrouvé avec des centaines de pages web parasites en quelques minutes. Exactement ce que je voulais![]()
As-tu eu des visites sur ces trap pages ?
-

WebRankInfo - Administrateur du site

- Messages: 19423
- Inscription: 19 Avr 2002
ortolojf a écrit:Au risque de passer pour un malappris...
Pour mon site, les aspirateurs ne peuvent charger que les deux liens de la page d'accueil, car toutes les autres pages nécéssitent des paramètres, qui sont fournis manuellement par le visiteur avec une FORM adaptée.
Sur mon site, un gaspirateur peut quasiment rien faire...
Jean Francois Ortolo
Alors comment font les robots des moteurs pour indexer ton site ?
Lectures recommandées sur ce thème :
- Mon script anti-aspirateur a blacklisté googlebot.
- Script anti-aspirateur et Google (et les autres...)
- anti-aspirateur
- Anti aspirateur URGENT ?
- mod_rewrite et anti aspirateur
- /!\ aspirateur de site et anti référencement ...
- .htaccess anti-aspirateur de site
- [Résolu] Pb htaccess anti-aspirateur email
- Anti aspirateur: ne pas bloquer Google
- Anti aspirateur de site : une idée
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités
