Bad bot mais efficace ...
9 messages
• Page 1 sur 1
-

Zecat - WRInaute accro

- Messages: 11990
- Inscription: 1 Mar 2005
Bad bot mais efficace ...
Une bad bot s'est pointé sur mon site (identifié comme bad avec un simple recherche sur l ip : 88.208.217.87). Bon la routine, un coup de deny.
Par contre, du haut de mon phpRank allez disons 2
Un truc m'interpelle :
1 - Quand je veux aller lire le contenu d'une page (à la rustique par un file get content), ca dure des plombes
2 - Et la je vois que les bots se gavent à raison de 100 ou 200 pages à la minute !
C'est quoi leur technique ? Ou alors il viennet juste faire coucou sans gober le contenu des pages ? Un truc m'échappe.
Par contre, du haut de mon phpRank allez disons 2
1 - Quand je veux aller lire le contenu d'une page (à la rustique par un file get content), ca dure des plombes
2 - Et la je vois que les bots se gavent à raison de 100 ou 200 pages à la minute !
C'est quoi leur technique ? Ou alors il viennet juste faire coucou sans gober le contenu des pages ? Un truc m'échappe.
-

jeanluc - WRInaute accro

- Messages: 3062
- Inscription: 3 Mai 2004
Re: Bad bot mais efficace ...
C'est-à-dire ? Combien de temps pour une page de quelle taille ?Zecat a écrit:1 - Quand je veux aller lire le contenu d'une page (à la rustique par un file get content), ca dure des plombes
L'explication n'est pas dans le file_get_contents. Si ton accès semble nettement plus lent, ça pourrait être que ton système est surchargé ou que la connexion utilisée est lente ou surchargée ou qu'elle est foireuse (routage ?) ou que les bots font un simple HEAD alors que toi, tu fais un GET ou que les bots font plusieurs accès en même temps et non un après l'autre. Cela fait pas mal d'explications possibles...
Jean-Luc
-

Zecat - WRInaute accro

- Messages: 11990
- Inscription: 1 Mar 2005
Re: Bad bot mais efficace ...
jeanluc a écrit:C'est-à-dire ? Combien de temps pour une page de quelle taille ?Zecat a écrit:1 - Quand je veux aller lire le contenu d'une page (à la rustique par un file get content), ca dure des plombes
J'ai pas fait de mesures precises mais je dirais entre 3 et 5 secondes selon la taille de la page voir plus sur les tres grosses pages (200k ou 300k)
jeanluc a écrit:ou que les bots font plusieurs accès en même temps et non un après l'autre. Cela fait pas mal d'explications possibles...
C'est ce que j'ai pensé en voyant d'un coup un accès quasi simultané à des dizaines de pages mais par acquis de conscience je me disais que peut etre il existait des commandes que je n'avais pas encore vues.
-

Zecat - WRInaute accro

- Messages: 11990
- Inscription: 1 Mar 2005
Re: Bad bot mais efficace ...
C'est aussi peut etre moi qui ait codé mon truc a la hache comem un bucheron
Si quelque'un voit mieux, j'explique ce dont j'ai besoin :
1- Imaginons une page (html ou php peu importe)
xxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxx aaa xxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxx bbb xxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxx aaaa xxxxxx
2 - Dans cette page seules les trois lignes qui contiennet aaa ou bbb m'interesse.
3 - et je dois faire ca pour quelques milliers voir dizaines de milliers de page.
Actuellement je fais ca :
1 - un file get contents (je choppe donc tout le contenu meme si il fait 500k et que au final il y a 2 ligne qui m'interessent)
2 - puis je foiune a coup de strpos dans le content pour extraire les lignes qui m interessent.
Si quelqu'un voit la combine géniale pour le faire plus vite et en consommant moins (parce que en plus comme Wamp refuse désespérément de marcher sur mon PC, je fais ca sur un mutu avec de regulier rappels à l'ordre au bout des fatidiques 30 s...
1- Imaginons une page (html ou php peu importe)
xxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxx aaa xxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxx bbb xxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxx aaaa xxxxxx
2 - Dans cette page seules les trois lignes qui contiennet aaa ou bbb m'interesse.
3 - et je dois faire ca pour quelques milliers voir dizaines de milliers de page.
Actuellement je fais ca :
1 - un file get contents (je choppe donc tout le contenu meme si il fait 500k et que au final il y a 2 ligne qui m'interessent)
2 - puis je foiune a coup de strpos dans le content pour extraire les lignes qui m interessent.
Si quelqu'un voit la combine géniale pour le faire plus vite et en consommant moins (parce que en plus comme Wamp refuse désespérément de marcher sur mon PC, je fais ca sur un mutu avec de regulier rappels à l'ordre au bout des fatidiques 30 s...
-

Haroeris - WRInaute impliqué

- Messages: 601
- Inscription: 13 Avr 2010
Re: Bad bot mais efficace ...
Malheureusement tu es obligé de télécharger le contenu de la page pour faire cette recherche, et quelque soit la puissance de ton script, de ton serveur ou de ta connexion, tu dépends de la vitesse du serveur sur lequel la page est hébergé.
Je te conseil cependant d'aller voir du coté des sockets php au lieux de file get content.
Il faut 200 lignes de code au lieux d'une, cependant les sockets permettent de nommer ton robot, et de télécharger la page par segments : si tu sais que l'élément que tu scan n'est présent qu'une fois tu peut stopper le téléchargement et gagner du temps.
Je te conseil cependant d'aller voir du coté des sockets php au lieux de file get content.
Il faut 200 lignes de code au lieux d'une, cependant les sockets permettent de nommer ton robot, et de télécharger la page par segments : si tu sais que l'élément que tu scan n'est présent qu'une fois tu peut stopper le téléchargement et gagner du temps.
-

Zecat - WRInaute accro

- Messages: 11990
- Inscription: 1 Mar 2005
Re: Bad bot mais efficace ...
Haroeris a écrit:Malheureusement tu es obligé de télécharger le contenu de la page pour faire cette recherche, et quelque soit la puissance de ton script, de ton serveur ou de ta connexion, tu dépends de la vitesse du serveur sur lequel la page est hébergé.
Je te conseil cependant d'aller voir du coté des sockets php au lieux de file get content.
Il faut 200 lignes de code au lieux d'une, cependant les sockets permettent de nommer ton robot, et de télécharger la page par segments : si tu sais que l'élément que tu scan n'est présent qu'une fois tu peut stopper le téléchargement et gagner du temps.
Nan nan je peux trouver les chaines que je cherches aussi bien au debut que tout a la fin des pages sans aucune logique particulière ...
Par contre y a t il un moyen php rapide de dire :
1 - tu fais un file get content
2 - mais tu laisses tomber si ca a pas rendu la main sous 10 s (une sorte de timeout comme on en trouve ailleurs)
Parce que mon probleme majeur est la : 10 pages vont assez vite et paf je tombe sur uen page qui mets des plombes a arriver et boum dehors ...
-

Haroeris - WRInaute impliqué

- Messages: 601
- Inscription: 13 Avr 2010
Re: Bad bot mais efficace ...
Essaye ca :
jamais testé donc tiens moi au courant si ca marche ^_^
- Code: Tout sélectionner
<?php
$ctx = stream_context_create(array(
'http' => array(
'timeout' => 1
)
)
);
file_get_contents("http://example.com/", 0, $ctx);
?>
jamais testé donc tiens moi au courant si ca marche ^_^
9 messages
• Page 1 sur 1
Lectures recommandées sur ce thème :
- Google Wireless Transcoder : vieux Bot ou nouveau Bot ?
- Bad Request sur UR
- Bad request avec Lynx
- IP google bot Vs Bot media partner ?
- Problème URL rewriting - Bad Request
- [résolu - humhum] Hack -> Bad Behavior...
- [po résolu] 'bad flag delimiters' et syntaxe
- Gmail notifier : cannot read your message (bad data;1)
- décrédibiliser un site par la mention banned by bad tags
- Quelle politique face aux bad bots (scrapper) ?
- Etude de Googlebot, le robot crawler de Google (Fresh Bot, Deep Bot) - 05-09-2008
- Mise à jour de Google Images (Juillet 2006) - 10-07-2006
- Mise à jour de Google Images (16/04/2006) - 18-04-2006
- Google contre les spywares et les adwares - 21-05-2004
- Google crawle les fichiers CSS - 25-06-2006
- Formation e-reputation et réseaux sociaux (Facebook et Twitter) - 16-12-2010
- Protégez-vous contre le nofollow - 21-01-2005
- Google Instant Preview : correction du bug Google Analytics - 01-12-2010
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 1 invité
