Script php Anti aspirateur.

Consultez la formation au référencement naturel Google de WebRankInfo / Ranking Metrics


Renardrouge
Nouveau WRInaute
 
Messages: 47
Inscription: Mar Nov 19, 2002 14:31

Script php Anti aspirateur.

Message le Lun Jan 27, 2003 22:14

Hello les webmasters,

J'ai un petit script php anti aspirateur pour ceux que ca interessent éventuellement:

C'est léger:
- 30 lignes de codes
- 3 requetes Mysql.

Ca fait quoi:
- Ca bloque les adresses IP qui demandent des pages php a un trop grand ryhtme (beaucoup plus qu'un visiteur normal).

- ce n'est en rien basé sur les user agent/robots.txt car tous les aspirateurs permettent de faire n'importe quoi.

Ca ne bloque pas les robots:
- google est passé hier chez moi sans problème, deepindex aussi, scooter aussi.... bon je les connais pas tous mais aucun robot n'a été arrété, car les robots ne font pas des accès bourrins sur les sites (au contraire des aspirateurs qui sont hyperviolents dans le genre)..

Ca marche:
- jusqu'a maintenant il a bloqué: Téléport pro/ Httrack / Memoweb / Webreaper / Offline Explorer. Ca marche logiquement avec les autres aussi.

(je mettrais l'adresse s'il y a de demande, ou 1 mp et je vous envoie l'url).

Vos commentaires sur le sujet (pour ceux que ca interessent bien sur) sont les rudement bienvenus pour l'améliorer encore.
:D

EDIT du 18/7: je mets l'url ca m'évite de répondre en privé au mp qui me le demande toujours de temps à autre: http://www.1001bd.com/stop_aspirateurs
Pour infos: Des liens commencent à aparaitre sur les sites de ressources pour webmaster, il est présent sur 01.net, sur le support d'amen.fr et il devrait être reppris sur le CD dans quelques magazines spécialisés. Si vous le voyez envoyez moi un scan du mag, ca me fera toujours plaisir. :wink:
Dernière édition par Renardrouge le Ven Juil 18, 2003 0:34, édité 1 fois.

Nitou
WRInaute passionné
WRInaute passionné
 
Messages: 929
Inscription: Dim Déc 01, 2002 15:25

Message le Lun Jan 27, 2003 23:35

ca m'interesse :)


Monique
WRInaute accro
WRInaute accro
 
Messages: 1545
Inscription: Lun Sep 16, 2002 10:50

Message le Mar Jan 28, 2003 0:30

Bonsoir,

Suis-je naïve... :? en quoi un aspirateur peut-il être une plaie ?

Avant d'avoir l'ADSL, je me demande comment j'aurais pu faire sans pour utiliser les sites avec des cours, dossiers...

Nitou
WRInaute passionné
WRInaute passionné
 
Messages: 929
Inscription: Dim Déc 01, 2002 15:25

Message le Mar Jan 28, 2003 0:43

Et bien les aspirateurs comme leur nom l'indique, aspire le site web, pas seulement une page, le plus souvent, le site complet, et parfois le site peut faire beaucoup de mégas-octets, imaginez que tout le monde aspire votre site... l'hebergeur qui souvent limite le transfert de données fait payer le surplus... voila en quoi c'est génant.


Kmacleod
WRInaute accro
WRInaute accro
 
Messages: 3418
Inscription: Jeu Nov 28, 2002 15:47

Message le Mar Jan 28, 2003 1:07

Les aspirateurs consomment de la bande passante, ou des hits mais n'apportent rien en terme de visite, surtout si c'est pour aspirer des adresses mails dans le but de faire du spam (envoil d'emails non désirés)

Un script php c'est bien, mais celà peut aussi être fait avec un fichier .htaccess (Voir la réponse de Dan)
Ce script serait donc bien pour ceux qui n'ont pas acces au fichier .htaccess (hergement gratuit ou mutualisés généralement, free, lycos; ifrance, wanadoo ...)


Monique
WRInaute accro
WRInaute accro
 
Messages: 1545
Inscription: Lun Sep 16, 2002 10:50

Message le Mar Jan 28, 2003 1:08

Nitou a écrit:Et bien les aspirateurs comme leur nom l'indique, aspire le site web, pas seulement une page, le plus souvent, le site complet

Evidemment... il ne me serait jamais venu à l'idée d'aspirer un site complet, mais si certains le font, effectivement ce doit être pénalisant.

Jocelyn
WRInaute passionné
WRInaute passionné
 
Messages: 564
Inscription: Mer Nov 06, 2002 9:14

Message le Mar Jan 28, 2003 7:50

Bonjour,
je viens de voter. J'ai coché "Les aspirateurs de sites sont très pratiques", cependant je voulais complèter ma réponse.
Je pense que c'est très pratique pour un utilisateur, ça évite de faire "Enregistrer" sur chaque page.
Cependant, pour le webmaster et celui qui gère le serveur, ça peut créer plein de problèmes :
- gaspillage de bande passante
- vol de contenu grandement facilité
...
Comme le dit Monique, j'utilisais régulièrement un aspirateur de sites lorsque je n'avais qu'une connexion modem. Evidemment, je l'utilisais intelligemment, de façon à disposer offline des quelques pages qui m'intéressaient. Surtout pas pour "pomper" tout un site comme un "bourrin".

Il y a quelques temps, j'avais posté un message sur les aspirateurs d'adresses email. J'ai installé sur mon site un script qui génère un nombre infini de pages web aléatoires remplies avec plein d'adresses email inexistantes. La page qui exécute ce script est interdite d'accès (robots.txt), et n'est accessible que par un lien invisible (il n'y a pas de texte au milieu de la balise A).
Donc les seuls visiteurs sur ces pages sont les aspirateurs très indélicats d'emails ou de pages web. J'ai essayé moi-même d'aspirer mon site, je me suis retrouvé avec des centaines de pages web parasites en quelques minutes. Exactement ce que je voulais :twisted:

Personnellement, je n'utilise presque plus les aspirateurs de sites, maintenant que j'ai une connexion permanente à Internet. Mieux vaut revisiter la page web pour trouver des informations à jour.

Jocelyn


hetzeld
WRInaute accro
WRInaute accro
 
Messages: 2209
Inscription: Lun Déc 02, 2002 18:21

Message le Mar Jan 28, 2003 8:20

Kmacleod a écrit:Un script php c'est bien, mais celà peut aussi être fait avec un fichier .htaccess (Voir la réponse de Dan)
Ce script serait donc bien pour ceux qui n'ont pas acces au fichier .htaccess (hergement gratuit ou mutualisés généralement, free, lycos; ifrance, wanadoo ...)

Kmacleod,
C'est cool de faire ma promo :wink:

Il faut reconnaître que la méthode .htaccess a une restriction: de plus en plus de logiciels aspirateurs permettent de définir le USER_AGENT ou de le masquer. Dans ce cas, les règles de réécriture ne fonctionnent pas, sauf pour ceux qui utilisent le logiciel "tel quel".

Peu de méthodes permettent d'arrêter les collecteurs de sites/email "pros" .
Il est aussi relativement facile de temporiser la collecte (selon l'outil utilisé) pour éviter de se faire bloquer par un script tel que celui proposé ici.
Je ne dis pas que les 2 méthodes sont inefficaces, je dis simplement qu'il est quasi impossible de bloquer quelqu'un de déterminé et compétent... mais ces deux qualités ne sont pas représentatives de la majorité :wink:

Dan


Renardrouge
Nouveau WRInaute
 
Messages: 47
Inscription: Mar Nov 19, 2002 14:31

Message le Mar Jan 28, 2003 9:25

Monique a écrit:Suis-je naïve... :? en quoi un aspirateur peut-il être une plaie ?

Avant d'avoir l'ADSL, je me demande comment j'aurais pu faire sans pour utiliser les sites avec des cours, dossiers...


Voila un petit graphique de l'activité d'un serveur en temps normal et avec un aspirateur qui passe.

A toi de déviner à quel moment passe l'aspirateur (et les dégats qu'il fait):
:mrgreen:

Image


Renardrouge
Nouveau WRInaute
 
Messages: 47
Inscription: Mar Nov 19, 2002 14:31

Message le Mar Jan 28, 2003 9:38

hetzeld a écrit:Il est aussi relativement facile de temporiser la collecte (selon l'outil utilisé) pour éviter de se faire bloquer par un script tel que celui proposé ici.


Ben celui là tu as du boulot tout de même. Il est basé sur le nombre de page aspirées dans la dernière minute.
:mrgreen:

Même avec un très bon aspirateur, configuré au minimum sur 1 seul thread, l'IP se fait vérouiller, et il ne récupère plus que des pages blanches par la suite, le temps qu'il vide sa liste dURL. Je ne dis pas que c'est ultime, mais dans ces conditions aspirer un site important prendra des heures et des heures, ce qui perdra de son intérêt largement.
(et de toute manière comme il aura essayé comme un bourrin le 1er coup, il sera coincé).
8)

Les robots.txt sont complètement inutiles face à eux maintenant, tous les aspi proposent de passer par dessus.

Pareil pour les .htaccess, l'user agent est totalement configurable et se fait passer pour un navigateur classique (quand le gars de mets pas un petit message sympa à la place) :roll:

luckyluk
WRInaute passionné
WRInaute passionné
 
Messages: 668
Inscription: Sam Nov 23, 2002 11:40

Message le Mar Jan 28, 2003 9:47

oh là :!:

y a 2 pros de la bd dans ce forum (pas moi)

ça vas etre la guerre des places :wink:

:lol:


ortolojf
WRInaute accro
WRInaute accro
 
Messages: 1181
Inscription: Mer Aoû 14, 2002 13:30

Message le Mar Jan 28, 2003 9:49

Au risque de passer pour un malappris...

Pour mon site, les aspirateurs ne peuvent charger que les deux liens de la page d'accueil, car toutes les autres pages nécéssitent des paramètres, qui sont fournis manuellement par le visiteur avec une FORM adaptée.

Sur mon site, un gaspirateur peut quasiment rien faire...

Jean Francois Ortolo


Renardrouge
Nouveau WRInaute
 
Messages: 47
Inscription: Mar Nov 19, 2002 14:31

Message le Mar Jan 28, 2003 10:00

ortolojf a écrit: Sur mon site, un gaspirateur peut quasiment rien faire...


Effectivement c'est peut-être un peu plus difficile (quoique j'en suis pas certains), mais on ne peut pas contruire tous les sites sur ton modèle de site.

De plus tu as assez peu de page au final, les aspirateurs feront donc pas de gros dégats chez toi.

Quand on utilise un site nuke* et des pages identiques qu'on peut charger avec des paramètres légèrement différents, ou des sessions, c'est la catastrophe. Le truc relit sans arrêt les même pages car il pense que ce ne sont pas les même.

Eservice
WRInaute accro
WRInaute accro
 
Messages: 1463
Inscription: Mer Sep 18, 2002 11:28

Message le Mar Jan 28, 2003 12:40

Renardrouge a écrit:J'ai un petit script php anti aspirateur pour ceux que ca interessent
Ca ne gêne pas le google full crawl ( beaucoup plus de requête que le daily crawl ) ? Si non, ton script m'interresse
Jocelyn a écrit:Il y a quelques temps, j'avais posté un message sur les aspirateurs d'adresses email. J'ai installé sur mon site un script qui génère un nombre infini de pages web aléatoires remplies avec plein d'adresses email inexistantes. La page qui exécute ce script est interdite d'accès (robots.txt), et n'est accessible que par un lien invisible (il n'y a pas de texte au milieu de la balise A).
Donc les seuls visiteurs sur ces pages sont les aspirateurs très indélicats d'emails ou de pages web. J'ai essayé moi-même d'aspirer mon site, je me suis retrouvé avec des centaines de pages web parasites en quelques minutes. Exactement ce que je voulais :twisted:
:lol: excellent pour saturer les bases des spammeurs :lol:
As-tu eu des visites sur ces trap pages ?


WebRankInfo
Administrateur du site
Administrateur du site
 
Messages: 15880
Inscription: Ven Avr 19, 2002 19:51

Message le Mar Jan 28, 2003 13:35

ortolojf a écrit:Au risque de passer pour un malappris...

Pour mon site, les aspirateurs ne peuvent charger que les deux liens de la page d'accueil, car toutes les autres pages nécéssitent des paramètres, qui sont fournis manuellement par le visiteur avec une FORM adaptée.

Sur mon site, un gaspirateur peut quasiment rien faire...

Jean Francois Ortolo

Alors comment font les robots des moteurs pour indexer ton site ?

Script php Anti aspirateur.

Formation recommandée sur ce thème :

Formation Référencement naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.

Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.

Lectures recommandées sur ce thème :



Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités