Consultez la formation SEO spéciale Wordpress
par WebRankInfo / Ranking Metrics

Messages: 47

Enregistré le: 19 Nov 2002

Message le Lun Jan 27, 2003 23:14

Hello les webmasters,

J'ai un petit script php anti aspirateur pour ceux que ca interessent éventuellement:

C'est léger:
- 30 lignes de codes
- 3 requetes Mysql.

Ca fait quoi:
- Ca bloque les adresses IP qui demandent des pages php a un trop grand ryhtme (beaucoup plus qu'un visiteur normal).

- ce n'est en rien basé sur les user agent/robots.txt car tous les aspirateurs permettent de faire n'importe quoi.

Ca ne bloque pas les robots:
- google est passé hier chez moi sans problème, deepindex aussi, scooter aussi.... bon je les connais pas tous mais aucun robot n'a été arrété, car les robots ne font pas des accès bourrins sur les sites (au contraire des aspirateurs qui sont hyperviolents dans le genre)..

Ca marche:
- jusqu'a maintenant il a bloqué: Téléport pro/ Httrack / Memoweb / Webreaper / Offline Explorer. Ca marche logiquement avec les autres aussi.

(je mettrais l'adresse s'il y a de demande, ou 1 mp et je vous envoie l'url).

Vos commentaires sur le sujet (pour ceux que ca interessent bien sur) sont les rudement bienvenus pour l'améliorer encore.
:D

EDIT du 18/7: je mets l'url ca m'évite de répondre en privé au mp qui me le demande toujours de temps à autre: http://www.1001bd.com/stop_aspirateurs
Pour infos: Des liens commencent à aparaitre sur les sites de ressources pour webmaster, il est présent sur 01.net, sur le support d'amen.fr et il devrait être reppris sur le CD dans quelques magazines spécialisés. Si vous le voyez envoyez moi un scan du mag, ca me fera toujours plaisir. :wink:
Modifié en dernier par Renardrouge le Ven Juil 18, 2003 1:34, modifié 1 fois.
Haut
156 Réponses
Messages: 928

Enregistré le: 1 Déc 2002

Message le Mar Jan 28, 2003 0:35

ca m'interesse :)
Haut
Messages: 1545

Enregistré le: 16 Sep 2002

Message le Mar Jan 28, 2003 1:30

Bonsoir,

Suis-je naïve... :? en quoi un aspirateur peut-il être une plaie ?

Avant d'avoir l'ADSL, je me demande comment j'aurais pu faire sans pour utiliser les sites avec des cours, dossiers...
Haut
Messages: 928

Enregistré le: 1 Déc 2002

Message le Mar Jan 28, 2003 1:43

Et bien les aspirateurs comme leur nom l'indique, aspire le site web, pas seulement une page, le plus souvent, le site complet, et parfois le site peut faire beaucoup de mégas-octets, imaginez que tout le monde aspire votre site... l'hebergeur qui souvent limite le transfert de données fait payer le surplus... voila en quoi c'est génant.
Haut
Messages: 3418

Enregistré le: 28 Nov 2002

Message le Mar Jan 28, 2003 2:07

Les aspirateurs consomment de la bande passante, ou des hits mais n'apportent rien en terme de visite, surtout si c'est pour aspirer des adresses mails dans le but de faire du spam (envoil d'emails non désirés)

Un script php c'est bien, mais celà peut aussi être fait avec un fichier .htaccess (Voir la réponse de Dan)
Ce script serait donc bien pour ceux qui n'ont pas acces au fichier .htaccess (hergement gratuit ou mutualisés généralement, free, lycos; ifrance, wanadoo ...)
Haut
Messages: 1545

Enregistré le: 16 Sep 2002

Message le Mar Jan 28, 2003 2:08

Nitou a écrit:Et bien les aspirateurs comme leur nom l'indique, aspire le site web, pas seulement une page, le plus souvent, le site complet

Evidemment... il ne me serait jamais venu à l'idée d'aspirer un site complet, mais si certains le font, effectivement ce doit être pénalisant.
Haut
Messages: 564

Enregistré le: 6 Nov 2002

Message le Mar Jan 28, 2003 8:50

Bonjour,
je viens de voter. J'ai coché "Les aspirateurs de sites sont très pratiques", cependant je voulais complèter ma réponse.
Je pense que c'est très pratique pour un utilisateur, ça évite de faire "Enregistrer" sur chaque page.
Cependant, pour le webmaster et celui qui gère le serveur, ça peut créer plein de problèmes :
- gaspillage de bande passante
- vol de contenu grandement facilité
...
Comme le dit Monique, j'utilisais régulièrement un aspirateur de sites lorsque je n'avais qu'une connexion modem. Evidemment, je l'utilisais intelligemment, de façon à disposer offline des quelques pages qui m'intéressaient. Surtout pas pour "pomper" tout un site comme un "bourrin".

Il y a quelques temps, j'avais posté un message sur les aspirateurs d'adresses email. J'ai installé sur mon site un script qui génère un nombre infini de pages web aléatoires remplies avec plein d'adresses email inexistantes. La page qui exécute ce script est interdite d'accès (robots.txt), et n'est accessible que par un lien invisible (il n'y a pas de texte au milieu de la balise A).
Donc les seuls visiteurs sur ces pages sont les aspirateurs très indélicats d'emails ou de pages web. J'ai essayé moi-même d'aspirer mon site, je me suis retrouvé avec des centaines de pages web parasites en quelques minutes. Exactement ce que je voulais :twisted:

Personnellement, je n'utilise presque plus les aspirateurs de sites, maintenant que j'ai une connexion permanente à Internet. Mieux vaut revisiter la page web pour trouver des informations à jour.

Jocelyn
Haut
Messages: 2209

Enregistré le: 2 Déc 2002

Message le Mar Jan 28, 2003 9:20

Kmacleod a écrit:Un script php c'est bien, mais celà peut aussi être fait avec un fichier .htaccess (Voir la réponse de Dan)
Ce script serait donc bien pour ceux qui n'ont pas acces au fichier .htaccess (hergement gratuit ou mutualisés généralement, free, lycos; ifrance, wanadoo ...)

Kmacleod,
C'est cool de faire ma promo :wink:

Il faut reconnaître que la méthode .htaccess a une restriction: de plus en plus de logiciels aspirateurs permettent de définir le USER_AGENT ou de le masquer. Dans ce cas, les règles de réécriture ne fonctionnent pas, sauf pour ceux qui utilisent le logiciel "tel quel".

Peu de méthodes permettent d'arrêter les collecteurs de sites/email "pros" .
Il est aussi relativement facile de temporiser la collecte (selon l'outil utilisé) pour éviter de se faire bloquer par un script tel que celui proposé ici.
Je ne dis pas que les 2 méthodes sont inefficaces, je dis simplement qu'il est quasi impossible de bloquer quelqu'un de déterminé et compétent... mais ces deux qualités ne sont pas représentatives de la majorité :wink:

Dan
Haut
Messages: 47

Enregistré le: 19 Nov 2002

Message le Mar Jan 28, 2003 10:25

Monique a écrit:Suis-je naïve... :? en quoi un aspirateur peut-il être une plaie ?

Avant d'avoir l'ADSL, je me demande comment j'aurais pu faire sans pour utiliser les sites avec des cours, dossiers...


Voila un petit graphique de l'activité d'un serveur en temps normal et avec un aspirateur qui passe.

A toi de déviner à quel moment passe l'aspirateur (et les dégats qu'il fait):
:mrgreen:

Image
Haut
Messages: 47

Enregistré le: 19 Nov 2002

Message le Mar Jan 28, 2003 10:38

hetzeld a écrit:Il est aussi relativement facile de temporiser la collecte (selon l'outil utilisé) pour éviter de se faire bloquer par un script tel que celui proposé ici.


Ben celui là tu as du boulot tout de même. Il est basé sur le nombre de page aspirées dans la dernière minute.
:mrgreen:

Même avec un très bon aspirateur, configuré au minimum sur 1 seul thread, l'IP se fait vérouiller, et il ne récupère plus que des pages blanches par la suite, le temps qu'il vide sa liste dURL. Je ne dis pas que c'est ultime, mais dans ces conditions aspirer un site important prendra des heures et des heures, ce qui perdra de son intérêt largement.
(et de toute manière comme il aura essayé comme un bourrin le 1er coup, il sera coincé).
8)

Les robots.txt sont complètement inutiles face à eux maintenant, tous les aspi proposent de passer par dessus.

Pareil pour les .htaccess, l'user agent est totalement configurable et se fait passer pour un navigateur classique (quand le gars de mets pas un petit message sympa à la place) :roll:
Haut
Messages: 668

Enregistré le: 23 Nov 2002

Message le Mar Jan 28, 2003 10:47

oh là :!:

y a 2 pros de la bd dans ce forum (pas moi)

ça vas etre la guerre des places :wink:

:lol:
Haut
Messages: 2765

Enregistré le: 14 Aoû 2002

Message le Mar Jan 28, 2003 10:49

Au risque de passer pour un malappris...

Pour mon site, les aspirateurs ne peuvent charger que les deux liens de la page d'accueil, car toutes les autres pages nécéssitent des paramètres, qui sont fournis manuellement par le visiteur avec une FORM adaptée.

Sur mon site, un gaspirateur peut quasiment rien faire...

Jean Francois Ortolo
Haut
Messages: 47

Enregistré le: 19 Nov 2002

Message le Mar Jan 28, 2003 11:00

ortolojf a écrit: Sur mon site, un gaspirateur peut quasiment rien faire...


Effectivement c'est peut-être un peu plus difficile (quoique j'en suis pas certains), mais on ne peut pas contruire tous les sites sur ton modèle de site.

De plus tu as assez peu de page au final, les aspirateurs feront donc pas de gros dégats chez toi.

Quand on utilise un site nuke* et des pages identiques qu'on peut charger avec des paramètres légèrement différents, ou des sessions, c'est la catastrophe. Le truc relit sans arrêt les même pages car il pense que ce ne sont pas les même.
Haut
Messages: 1461

Enregistré le: 18 Sep 2002

Message le Mar Jan 28, 2003 13:40

Renardrouge a écrit:J'ai un petit script php anti aspirateur pour ceux que ca interessent
Ca ne gêne pas le google full crawl ( beaucoup plus de requête que le daily crawl ) ? Si non, ton script m'interresse
Jocelyn a écrit:Il y a quelques temps, j'avais posté un message sur les aspirateurs d'adresses email. J'ai installé sur mon site un script qui génère un nombre infini de pages web aléatoires remplies avec plein d'adresses email inexistantes. La page qui exécute ce script est interdite d'accès (robots.txt), et n'est accessible que par un lien invisible (il n'y a pas de texte au milieu de la balise A).
Donc les seuls visiteurs sur ces pages sont les aspirateurs très indélicats d'emails ou de pages web. J'ai essayé moi-même d'aspirer mon site, je me suis retrouvé avec des centaines de pages web parasites en quelques minutes. Exactement ce que je voulais :twisted:
:lol: excellent pour saturer les bases des spammeurs :lol:
As-tu eu des visites sur ces trap pages ?
Haut
Messages: 23111

Enregistré le: 19 Avr 2002

Message le Mar Jan 28, 2003 14:35

ortolojf a écrit:Au risque de passer pour un malappris...

Pour mon site, les aspirateurs ne peuvent charger que les deux liens de la page d'accueil, car toutes les autres pages nécéssitent des paramètres, qui sont fournis manuellement par le visiteur avec une FORM adaptée.

Sur mon site, un gaspirateur peut quasiment rien faire...

Jean Francois Ortolo

Alors comment font les robots des moteurs pour indexer ton site ?
Haut
Messages: 2209

Enregistré le: 2 Déc 2002

Message le Mar Jan 28, 2003 14:39

Renardrouge a écrit:Pareil pour les .htaccess, l'user agent est totalement configurable et se fait passer pour un navigateur classique (quand le gars de mets pas un petit message sympa à la place) :roll:

Tout à fait d'accord, c'est ce que j'ai dit plus haut en répondant à Kmacleod.
C'est clair que ton script "anti-aspi" semble intéressant ! Tu peux m'inscrire sur ta liste si tu veux bien.

As-tu des infos telles que la charge CPU et le délai d'exécution du script?
J'imagine qu'il vaut mieux lui réserver sa propre base mySQL, non ?

A+

Dan
Haut
Messages: 47

Enregistré le: 19 Nov 2002

Message le Mar Jan 28, 2003 15:08

Eservice a écrit:
Renardrouge a écrit:J'ai un petit script php anti aspirateur pour ceux que ca interessent
Ca ne gêne pas le google full crawl ( beaucoup plus de requête que le daily crawl ) ? Si non, ton script m'interresse


Ca ne gêne pas car google et les robots indexeurs ne sont pas des "ratisseurs" de site. Ils font de nombreux acces mais largement repartis sur des journées entières. En plus ils ont plusieurs IP différentes. Donc ca déclenche pas le blackilistage. Au pire tu peux ajouter un controle sur l'IP avant de la blacklister si tu as un doute (mais pas sur le user agent hein). :wink:

Je t'envoie l'url en mp.

Jocelyn a écrit:J'ai installé sur mon site un script qui génère un nombre infini de pages web aléatoires remplies avec plein d'adresses email inexistantes.


je préfère qu'il arrête l'aspiration le + vite possible plutot que de monopoliser des ressources pour ce genre de trucs. Au mieux le gars a perdu du temps (mais il s'en fout a mon avis, il effacera tout et poursuivra son chemin), au pire c'est ton serveur qui perd du temps avec lui.

Mais bon, chacun ses gouts.
:D
Haut
Messages: 47

Enregistré le: 19 Nov 2002

Message le Mar Jan 28, 2003 15:18

hetzeld a écrit:As-tu des infos telles que la charge CPU et le délai d'exécution du script?
J'imagine qu'il vaut mieux lui réserver sa propre base mySQL, non ?


Pour la base de données tu fais comme tu veux. Je ne sais pas vraiment si tu y gagneras quelque chose, j'utilise la meme que pour le restant du site.

J'ai pas vu de différence sur la charge SQL.
C'est 3 requetes en plus par page.
Il y a envrion 15 000 pages/jour chez moi.

A toi d'évaluer si ca vaut le coup par rapport aux ressources consommées.
Je vais refaire une version avec des tables MySQL en HEAP (en mémoire). Donc là ce sera encore moins gourmand. Il me faut quelques jours pour trouver le temps de le faire.

Ca reste moins gourmand, qu'un script comme les visiteurs ou un *nuke*bien sur

Ca ne prend quasiment pas de place, puisque tu as seulement 2 tables. Celle des IP bloquées, et celle des IP qui parcourt ton site dans la dernière minute (et qui se vide au fur et à mesure, il n'y a pas de log), pas de fioritures.

Tout tient en 30 lignes de codes php (en encore avec les accolades des if).
Il y a surement des améliorations possibles, mais je ne vois plus trop.
J'ai vraiment essayé de faire le plus simple possible.
:D
Haut
Messages: 2765

Enregistré le: 14 Aoû 2002

Message le Mer Jan 29, 2003 10:38

Ben...

Les robots n'indexent que la page d'accueil, et aussi les 2 pages sur lesquelles cette page d'accueil a des liens.

De toute manière, le contenu de mon site dépend principalement des manipulations du visiteur, à savoir ce qu'il cherche, donc le contenu est très variable suivant les visites...

En gros, les statistiques sur les courses passées ( premier lien ), et les statistiques sur les courses du lendemain/après-midi (deuxième lien ).

C'est sûr qu'une fois qu'on est sur la page résultante, faut choisir la date des courses ( 1 ), ou la course à visualiser dans le cas ( 2 ).

Mon site est une pure merveille javascript:emoticon(':oops:') , tout en PHP et HTML fait main sous l'éditeur vi sous Linux RedHat7.3, ce fut un très gros travail, mais maintenant c'est terminé, ouf!...

Malheureusement, mes back-links viennent de chuter un petit peu, car le GoogleBot est passé entre 13h et 14h, heure à laquelle aucune course du lendemain n'est encore disponible, donc il a eu un message d'avertissement, qui ne comportait pas de lien vers la page d'accueil...

Dernier truc: Cà ne sert à rien d'aller sur mon site pour l'instant, je n'ai pas encore l'autorisation du PMU d'utiliser leurs résultats pour mettre à jour ma Base de Données, ce qui fait que celle-ci s'arrête au 31 décembre 2001. Les statistiques ne sont pas viables pour le moment... javascript:emoticon(':cry:')

Maiiisss, si vous voulez me visiter et me donner vos impressions, vous êtes les bienvenus! javascript:emoticon(':roll:')

Voilà, enfin, bien à vous.

Jean Francois Ortolo
Haut
Messages: 47

Enregistré le: 19 Nov 2002

Message le Lun Fév 03, 2003 16:08

Bon pas plus d'entousiasme ou de retour que ca ?
Je pensais que ca interesserait plus de monde la lutte anti aspi pour etre franc.

Mais bon, je me trompe peut-être. :?
Haut
Messages: 583

Enregistré le: 17 Oct 2002

Message le Lun Fév 03, 2003 18:13

Renardrouge> Si si moi cela m'intéresse mais là je suis surcharger de travail. Je pense avoir plus de temps libre d'ici 1-2 semaines, donc je te recontacterai à ce moment là !
Haut
Messages: 1461

Enregistré le: 18 Sep 2002

Message le Ven Fév 14, 2003 8:36

Bonjour RenardRouge,

ton logiciel anti-aspi marche sans doute correctement.

J'ai décortiqué tes scripts et je t'envoie en MP des idées pour l'amélioration des performances ( une base de données plus petite, moins de requêtes sur le serveur MySQL, moins d'instructions sur le serveur PHP ), d'autant plus sensible que le traffic est élevé. Ceci dit je n'ai pas testé leur efficacité, je me fie à mon expérience.
Haut
Messages: 47

Enregistré le: 19 Nov 2002

Message le Ven Fév 14, 2003 19:56

Hello,

Je viens de lire ton message, un grand merci pour les commentaires.
Comme j'ai retrouvé du boulot je garanti pas que je fais ca dans la soirée,
mais des que possible je m'y remet.

Je pense que tu as oublié les tables en heap pour les perf (mais sincèrement je ne sais pas si le script y gagnera enormément car il sera un peu plus complexe dans certains cas).

En tout cas merci encore. Je repasse dans quelques heures quand j'ai relu ton message et que je l'ai décortiqué un peu plus.
:mrgreen:
Haut
Messages: 928

Enregistré le: 1 Déc 2002

Message le Ven Fév 14, 2003 20:39

Tenez nous au courrant !! :wink:

Ce script m'interesse bcp :!:
Haut
Messages: 47

Enregistré le: 19 Nov 2002

Message le Ven Fév 14, 2003 21:37

Dans son état actuel il marche déjà pas mal je trouve.
8)
Haut
Messages: 928

Enregistré le: 1 Déc 2002

Message le Ven Fév 14, 2003 21:57

sur mon site, il interfere avec le système d'activation de compte, j'ai du le désactivé :?
Haut
Messages: 47

Enregistré le: 19 Nov 2002

Message le Ven Fév 14, 2003 22:01

heuuu intéressant, il fait ca comment ?

A priori il n'y a rien a voir avec autre chose (a moins d'avoir des tables avec le meme nom ou des variables communes peut-etre).

Ou alors tu des des pages qui se rechargent tres tres vite ? (dans ce cas augmente la limite).

Sincerement je ne vois pas comment il peut empecher un autre script de fonctionner correctement désolé. 8O
Haut
Messages: 1461

Enregistré le: 18 Sep 2002

Message le Ven Fév 14, 2003 23:15

Il s'agit peut-être d'une tentative (extérieure) de flooding de ton activation de compte ... si si ça existe, mais ça n'est qu'une hypothèse
Haut
Messages: 928

Enregistré le: 1 Déc 2002

Message le Sam Fév 15, 2003 0:51

Le phénomène est assez bizarre, je n'arrive pas à trouver l'erreur, je ne comprends d'ailleur pas pourquoi cela fait ça car le script est tout à fait différent de celui de l'activation.
Haut
Messages: 1461

Enregistré le: 18 Sep 2002

Message le Dim Fév 16, 2003 18:43

Les tables HEAP améliorent les performances mais elles ont des inconvénients : entre autres elles ne suportent pas les colonnes AUTO_INCREMENT.
Ensuite il n'est pas sûr que tous les hébergeurs les acceptent.
Haut

Formation recommandée sur ce thème :

Formation SEO spéciale Wordpress : apprenez à optimiser le référencement naturel d'un site fait avec Wordpress... Formation Ranking Metrics animée par un expert SEO / Wordpress.

Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.