Que peut simuler un aspirateur de site ? UserAgent, IP
37 messages
• Page 1 sur 3 • 1, 2, 3
Consultez la formation au REFERENCEMENT naturel Google de WebRankInfo / Ranking Metrics
-

Zecat - WRInaute accro

- Messages: 12002
- Inscription: 1 Mar 2005
Que peut simuler un aspirateur de site ? UserAgent, IP
Une petite question pour les spécialistes (*) : Un aspi peut très facilement changer son user agent pour dire "je suis firefox, je suis IE, je suis duchmoll".
Mais peut il aussi simuler l'ip de son choix et par exemple se connecter a un site avec l'IP de google ou de yahoo ? si oui comment ?
(*) ca c'est typiquement une question pour les jcaron and Co
Mais peut il aussi simuler l'ip de son choix et par exemple se connecter a un site avec l'IP de google ou de yahoo ? si oui comment ?
(*) ca c'est typiquement une question pour les jcaron and Co
-

rudddy - WRInaute accro

- Messages: 2570
- Inscription: 1 Aoû 2007
Re: Que peut simuler un aspi ?
ca c'est typiquement une question à moi
Quel est ton prochain dessein crasseux ?
Zecat a écrit:Mais peut il aussi simuler l'ip de son choix et par exemple se connecter a un site avec l'IP de google ou de yahoo ? si oui comment ?
Quel est ton prochain dessein crasseux ?
-

Zecat - WRInaute accro

- Messages: 12002
- Inscription: 1 Mar 2005
Re: Que peut simuler un aspi ?
rudddy a écrit:ca c'est typiquement une question à moiZecat a écrit:Mais peut il aussi simuler l'ip de son choix et par exemple se connecter a un site avec l'IP de google ou de yahoo ? si oui comment ?
Quel est ton prochain dessein crasseux ?
Je n'ai aucun dessin crasseux, c'est juste pour mieux les contrer. J'ai mis en place une usine anti aspi sur un site et un pote me lache dans un mail : "il suffit que l'aspi spoof l'ip et le user agent d'un bot connu et ton systeme est out"
Donc j'essaye de savoir ce qui est possible ou pas et comment pour mieux le contrer ..
-

Shunkawakan - WRInaute discret

- Messages: 181
- Inscription: 22 Mar 2009
Re: Que peut simuler un aspi ?
[HS]
Zecat !! t'es un Kikoulol !!!
[/HS]
Ok...
MagicYoyo a écrit:Le spoofing d'IP, c'est pas à la portée du premier kikoulol venu.
Zecat !! t'es un Kikoulol !!!
[/HS]
Ok...
- jcaron
- WRInaute accro

- Messages: 2685
- Inscription: 13 Fév 2004
Le spoofing d'IP en TCP (et donc en HTTP)
Le spoofing d'IP à la base c'est super facile (c'est un peu comme avec le mail, c'est toi qui choisis ce que tu mets comme émetteur). Le spoofing d'IP en TCP (et donc en HTTP) c'est nettement plus difficile, vu qu'il ne va jamais recevoir les réponses, donc il a du mal à faire un discussion complète. Il fut un temps il y avait des failles dans de nombreuses implémentations de TCP qui permettaient de continuer à "discuter" même sans recevoir les réponses, en devinant ce qu'elles devaient être; ce n'est généralement plus le cas de nos jours.
Donc si tu te limites à du HTTP et si tu vérifies les IPs elles-mêmes et les compares à des IPs dont il est établi de façon certaine que ce sont celles des crawlers de Google, tu n'as pas trop de risque.
Si par contre pour déterminer si c'est une IP Google ou autre tu consultes le reverse DNS, ça c'est très facile à manipuler. Il faut donc dans ce cas refaire un lookup "forward" pour vérifier que le nom renvoyé correspond bien à l'IP.
Exemple: tu reçois une requête de l'IP 1.2.3.4. Tu fais un lookup reverse, on te dit que c'est crawler-5678.google.com. Si tu t'arrêtes-là, tu pourrais croire que c'est Google. Mais si tu fais un lookup "forward" de crawler-5678.google.com, soit tu ne vas rien obtenir (NXDOMAIN), soit tu vas obtenir une ou plusieurs adresses IP qui ne correspondent pas (par exemple 5.6.7.8 et 6.7.8.9). Dans ce cas, tu peux douter assez sérieusement que ce soit effectivement Google (mais pas à 100%: il y a beaucoup de cas où les reverse et forward DNS ne sont pas vraiment correctement configurés). Evidemment, tes regex doivent aussi être un minimum sûres, que le gars qui te balance comme reverse crawler.5678-google.com ou crawler.google.com.5678.com ne soit pas accepté, par exemple (ce qui est vite fait si tu oublies d'escaper les . ou d'ancrer ta regex).
Note cependant que suivant ce dont tu cherches à te protéger exactement, toutes sortes d'"attaques" sont concevables qui utiliseraient en fait des vrais serveurs de Google ou d'autres pour venir voir des trucs chez toi plus ou moins téléguidés par quelqu'un d'autre, mais c'est probablement une autre problématique.
Jacques.
Donc si tu te limites à du HTTP et si tu vérifies les IPs elles-mêmes et les compares à des IPs dont il est établi de façon certaine que ce sont celles des crawlers de Google, tu n'as pas trop de risque.
Si par contre pour déterminer si c'est une IP Google ou autre tu consultes le reverse DNS, ça c'est très facile à manipuler. Il faut donc dans ce cas refaire un lookup "forward" pour vérifier que le nom renvoyé correspond bien à l'IP.
Exemple: tu reçois une requête de l'IP 1.2.3.4. Tu fais un lookup reverse, on te dit que c'est crawler-5678.google.com. Si tu t'arrêtes-là, tu pourrais croire que c'est Google. Mais si tu fais un lookup "forward" de crawler-5678.google.com, soit tu ne vas rien obtenir (NXDOMAIN), soit tu vas obtenir une ou plusieurs adresses IP qui ne correspondent pas (par exemple 5.6.7.8 et 6.7.8.9). Dans ce cas, tu peux douter assez sérieusement que ce soit effectivement Google (mais pas à 100%: il y a beaucoup de cas où les reverse et forward DNS ne sont pas vraiment correctement configurés). Evidemment, tes regex doivent aussi être un minimum sûres, que le gars qui te balance comme reverse crawler.5678-google.com ou crawler.google.com.5678.com ne soit pas accepté, par exemple (ce qui est vite fait si tu oublies d'escaper les . ou d'ancrer ta regex).
Note cependant que suivant ce dont tu cherches à te protéger exactement, toutes sortes d'"attaques" sont concevables qui utiliseraient en fait des vrais serveurs de Google ou d'autres pour venir voir des trucs chez toi plus ou moins téléguidés par quelqu'un d'autre, mais c'est probablement une autre problématique.
Jacques.
-

Zecat - WRInaute accro

- Messages: 12002
- Inscription: 1 Mar 2005
Re: Que peut simuler un aspi ?
MagicYoyo a écrit:Faire du spoofing d'IP pour aspirer un site n'a d'intérêt que si le site fait du cloaking. Le spoofing d'IP, c'est pas à la portée du premier kikoulol venu.
Bon ca me rassure ... je viens d faire un test en live avec madri ... et manifestement ma detection tient la route ... la seule ruse a été de passer par google mobile pour choper un morceau seulement d'une page ... je suis en train de verrouiller ca aussi ...
-

Leonick - WRInaute accro

- Messages: 19595
- Inscription: 8 Aoû 2004
Re: Que peut simuler un aspi ?
et un subterfuge du genre mettre une ip de google et comme adresse de proxy son ip perso et, en fait, l'information s'arrêterait sur le proxy (vu que c'est le vrai demandeur).
Est-ce faisable, parce que j'ai vu dans mes logs des fois des bizarreries de ce genre ?
Est-ce faisable, parce que j'ai vu dans mes logs des fois des bizarreries de ce genre ?
-

Haroeris - WRInaute impliqué

- Messages: 601
- Inscription: 13 Avr 2010
Re: Que peut simuler un aspi ?
Ne pourrais on pas imaginer un aspirateur qui au lieux de se connecter sur ton site, se connecterait au cache google lui même.
Que pourrais tu faire contre cela ? (a part peut être interdire la mise en cache par google ^^)
Que pourrais tu faire contre cela ? (a part peut être interdire la mise en cache par google ^^)
-

finstreet - WRInaute accro

- Messages: 16999
- Inscription: 10 Juil 2005
Re: Que peut simuler un aspi ?
Haroeris a écrit:Ne pourrais on pas imaginer un aspirateur qui au lieux de se connecter sur ton site, se connecterait au cache google lui même.
Que pourrais tu faire contre cela ? (a part peut être interdire la mise en cache par google ^^)
en même temps s'ils aspirent le cache de google où est le soucis ? il consomme pas ma bande passante, et Google aura tot fait de l'arrêter en bloquant son ip
-

Haroeris - WRInaute impliqué

- Messages: 601
- Inscription: 13 Avr 2010
Re: Que peut simuler un aspirateur de site ? UserAgent, IP
Je pensais que c'était surtout pour protéger ton contenu
Pour l'ip ça c'est pas un problème, des sites comme positeo ont résolus ce genre de problème depuis longtemps
Il suffit d'avoir des milliers de proxys à disposition, plusieurs box internet, et quelques centaines de milliers de PC zombis fournis par les russes
Pour l'ip ça c'est pas un problème, des sites comme positeo ont résolus ce genre de problème depuis longtemps
Il suffit d'avoir des milliers de proxys à disposition, plusieurs box internet, et quelques centaines de milliers de PC zombis fournis par les russes
-

Zecat - WRInaute accro

- Messages: 12002
- Inscription: 1 Mar 2005
Re: Que peut simuler un aspirateur de site ? UserAgent, IP
Est ce que la solution ultime n'est pas :
1 - avoir une liste de robots identifiés (google, yahoo etc)
2 - Identifier le type de visite sur la page (pages de recherche, referent, navigation interne dans le site, accès direct)
3 - Interdir d'office toute visite en accès direct a une page et n'autoriser que :
- ce qui vient d'un lien referant
- ce qui vient d'une page de recherche
- les navigations internes
(Bien sur permettre les accès directs pour les robots identifiés.
Vous en pensez quoi ?
1 - avoir une liste de robots identifiés (google, yahoo etc)
2 - Identifier le type de visite sur la page (pages de recherche, referent, navigation interne dans le site, accès direct)
3 - Interdir d'office toute visite en accès direct a une page et n'autoriser que :
- ce qui vient d'un lien referant
- ce qui vient d'une page de recherche
- les navigations internes
(Bien sur permettre les accès directs pour les robots identifiés.
Vous en pensez quoi ?
-

Haroeris - WRInaute impliqué

- Messages: 601
- Inscription: 13 Avr 2010
Re: Que peut simuler un aspirateur de site ? UserAgent, IP
Je dirais qu'il faut limiter le nombre de hit par minute pour tout robot non identifié, et rediriger soit vers une page html minimaliste sur ton serveur soit vers un fichier texte de 50mega hébergé à un autre endroit 
-

finstreet - WRInaute accro

- Messages: 16999
- Inscription: 10 Juil 2005
Re: Que peut simuler un aspirateur de site ? UserAgent, IP
Zecat a écrit:Est ce que la solution ultime n'est pas :
1 - avoir une liste de robots identifiés (google, yahoo etc)
2 - Identifier le type de visite sur la page (pages de recherche, referent, navigation interne dans le site, accès direct)
3 - Interdir d'office toute visite en accès direct a une page et n'autoriser que :
- ce qui vient d'un lien referant
- ce qui vient d'une page de recherche
- les navigations internes
(Bien sur permettre les accès directs pour les robots identifiés.
Vous en pensez quoi ?
Vu que la tendance générale va à la disparition du référent et aux navigations privées. C'est pas gagné tout ca
37 messages
• Page 1 sur 3 • 1, 2, 3
Formation recommandée sur ce thème :
Formation REFERENCEMENT naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.
Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.
Lectures recommandées sur ce thème :
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 1 invité
