Comment Eviter l'Aspiration d'un Site Web ?
14 messages • Page 1 sur 1
Consultez la formation à Google Analytics de WebRankInfo / Ranking Metrics
Comment Eviter l'Aspiration d'un Site Web ?
Bonjour,
Ce matin en regardant mes stats je vois que Web Downloader et WebCopier sont venus aspirer mon site.
Quel est la meilleure solution pour éviter cela ? Mes pages sont principalement en HTML.
Merci d'avance et bonne journée.
Ce matin en regardant mes stats je vois que Web Downloader et WebCopier sont venus aspirer mon site.
Quel est la meilleure solution pour éviter cela ? Mes pages sont principalement en HTML.
Merci d'avance et bonne journée.
Tu peux te servir de ton .htaccess en placant du code comme cela :
- Code: Tout sélectionner
RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} "Collage" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "Custo" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "Download Wonder" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "ESIRover" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "GetBot" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "GetURL" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "GetWeb" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "HavIndex" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "httrack" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "InfoSpiders" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "Internet Explore" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "Jeeves" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "jpeg hunt" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "KDD Explorer" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "LightningDownload" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "PBWF" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "Shai'Hulud" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "SpiderBot" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "ssearcher100" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "Templeton" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "vobsub" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "w3mir" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "WebBandit" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "WebCatcher" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "webcopier" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "WebCopy" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "WebFetcher" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "WebMirror" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "WebReaper" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "webvac" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "WebWalk" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "wGet" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "xGet" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "atSpider" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "autoemailspider" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "cherrypicker" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "DSurf" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "DTS Agent" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "EliteSys Entry" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "EmailCollector" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "EmailSiphon" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "EmailWolf" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "Mail Sweeper" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "munky" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "Roverbot" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "eCatch" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "MemoWeb" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "Teleport Pro" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "WebCopier" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "WebZIP" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "WebEmailExtrac" [NC]
RewriteRule .* - [F,L]
Merci beaucoup, je préfères utiliser le fichier .htaccess plutôt qu'un script, cela m'amène à 3 questions subsidiaires :
1) Cela ralenti t'il l'accès aux pages du site ?
2) Comment mettre à jour cette liste d'aspirateurs, y-a t'il un site où retrouver tous ces critères pour la mettre à jour ?
3) Est-il possible via le .htaccess d'éviter de retrouver son site dans les frames d'un autre, c'est à dire faire l'équivalent d'un script du style
if (top.frames.length!=0) {
if (window.location.href.replace)
top.location.replace(self.location.href);
else
top.location.href=self.document.href;
}
Encore merci !
1) Cela ralenti t'il l'accès aux pages du site ?
2) Comment mettre à jour cette liste d'aspirateurs, y-a t'il un site où retrouver tous ces critères pour la mettre à jour ?
3) Est-il possible via le .htaccess d'éviter de retrouver son site dans les frames d'un autre, c'est à dire faire l'équivalent d'un script du style
if (top.frames.length!=0) {
if (window.location.href.replace)
top.location.replace(self.location.href);
else
top.location.href=self.document.href;
}
Encore merci !
-

ludoanimation - WRInaute passionné

- Messages: 603
- Inscription: Ven Juil 25, 2003 15:17
il y a aussi la solution php :
pour chaque page tu log l'ip du visiteur et l'heure et tu incrémente son compteur dans une table sql.
puis tu teste qu'il ne visite pas plus d'une dizaine de pages a la minute.
si c'est le cas tu ne lui présente plus la page , mais une belle page 403 et tu bani son ip pour au moins toute la journée.
pour chaque page tu log l'ip du visiteur et l'heure et tu incrémente son compteur dans une table sql.
puis tu teste qu'il ne visite pas plus d'une dizaine de pages a la minute.
si c'est le cas tu ne lui présente plus la page , mais une belle page 403 et tu bani son ip pour au moins toute la journée.
Re: Comment Eviter l'Aspiration d'un Site Web ?
Rackham a écrit:Bonjour,
Ce matin en regardant mes stats je vois que Web Downloader et WebCopier sont venus aspirer mon site.
Quel est la meilleure solution pour éviter cela ? Mes pages sont principalement en HTML.
Merci d'avance et bonne journée.
c'est absolument impossible, si tu as quelqu'un de déterminé face à toi !!!
toutes les solutions existantes sont aisément contournables, même le problème de l'ip ...
wizzman.
Re: Comment Eviter l'Aspiration d'un Site Web ?
Rackham a écrit:Ce matin en regardant mes stats je vois que Web Downloader et WebCopier sont venus aspirer mon site.
Moi perso j'en aspire des fois pour les regarder sur mon pc qui a pas le net
Est-ce que les HTTP_USER_AGENT sont toujours d'actualité ? et est-ce que cela ne risque pas de ralentir ou nuire au référencement de GG ? Je vais lancer ma nouvelle version et je souhaiterai éviter les aspirateurs.....
J'avais oublié, vaut-il mieux installé un iptrace ?
J'avais oublié, vaut-il mieux installé un iptrace ?
Perso je fais comme dit au dessus, je stocke pour chaque page l'heure et l'ip.
A coté de çà j'ia un cron qui verifie toutes les 10 secondes le nombre de page affichée dans la minute par une même ip. Au dessus de 30 c'est ban pour la journée.
Je comprend totalement que des gens aient envie ou le besoin d'aspirer un site ou une partie de celui ci dans un but de consultation hors ligne ou pour se prémunir d'une suppression de celui-ci.
Maintenant que je vois des abrutis aspirer plusieurs milliers de photos dans la journée, ou aspirer le forum....
A coté de çà j'ia un cron qui verifie toutes les 10 secondes le nombre de page affichée dans la minute par une même ip. Au dessus de 30 c'est ban pour la journée.
Je comprend totalement que des gens aient envie ou le besoin d'aspirer un site ou une partie de celui ci dans un but de consultation hors ligne ou pour se prémunir d'une suppression de celui-ci.
Maintenant que je vois des abrutis aspirer plusieurs milliers de photos dans la journée, ou aspirer le forum....
-

UsagiYojimbo - WRInaute accro

- Messages: 5241
- Inscription: Mer Nov 23, 2005 10:38
Tester le User Agent est une solution un peu naïve, sachant qu'avec la plupart des soft on peu aisément le changer (avec HTTRACKS c'est l'enfance de l'art par exemple).
Donc l'idée de procéder par IP de ludoanimation me semble déjà plus réaliste, même si contournable.
Ceci dit ca limite déjà bien.
Donc l'idée de procéder par IP de ludoanimation me semble déjà plus réaliste, même si contournable.
Ceci dit ca limite déjà bien.
-

ludoanimation - WRInaute passionné

- Messages: 603
- Inscription: Ven Juil 25, 2003 15:17
UsagiYojimbo a écrit:Donc l'idée de procéder par IP de ludoanimation me semble déjà plus réaliste, même si contournable.
Pour compliquer le "contournable" ou peut également ajouter un guet-apens :
un lien quelque part sur image de 1x1 pixiel - si suivi ban car un humain ne peut pas le suivre ( en oubliant pas de mettre ce lien en nofollow et interdit dans le robot.txt pour ne pas banir google)
C'est hasardeux quand meme le liens sur une carré de 1px, et assez risqué.
L'idée de l'ip est la plus fiable.
Ca ne ralenti pas les perfs, ou invisible, ca ne nuit pas au référencement, et quand bien même l'aspireur limite a 20 pages par minutes, son robot, c'est toujours moins catastrophique que s'il fait çà a raison de 1000 pages à la minutes.
A defaut de s'en prévenir, ca limite les conséquences.
Nan honnêtement le systeme sur l'ip ca va pas mal, avec ban automatique pour la journée.
Je n'ai jamais vu un seul moteur se faire bannir avec ce système.
L'idée de l'ip est la plus fiable.
Ca ne ralenti pas les perfs, ou invisible, ca ne nuit pas au référencement, et quand bien même l'aspireur limite a 20 pages par minutes, son robot, c'est toujours moins catastrophique que s'il fait çà a raison de 1000 pages à la minutes.
A defaut de s'en prévenir, ca limite les conséquences.
Nan honnêtement le systeme sur l'ip ca va pas mal, avec ban automatique pour la journée.
Je n'ai jamais vu un seul moteur se faire bannir avec ce système.
14 messages • Page 1 sur 1
Formation recommandée sur ce thème :
Formation Google Analytics : en 2 jours, apprenez comment exploiter l'essentiel des possibilités de l'outil de mesure d'audience de Google. Formation animée par Julien Coquet, expert certifié officiellement par Google Analytics.
Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.
Lectures recommandées sur ce thème :
Consultez la description détaillée des produits ou services de Google suivants : Google Bombing, Google Sandbox, Google Analytics
- La classe C de l'adresse IP
Cet outil vous permet de vérifier si plusieurs sites sont hébergés sur la même classe C (adresse IP du serveur).
Qui est en ligne
Utilisateurs parcourant ce forum: tunisie-annonce.biz et 1 invité








le forum