Que peut simuler un aspirateur de site ? UserAgent, IP

Consultez la formation au REFERENCEMENT naturel Google de WebRankInfo / Ranking Metrics


Zecat
WRInaute accro
WRInaute accro
 
Messages: 12002
Inscription: 1 Mar 2005

Que peut simuler un aspirateur de site ? UserAgent, IP

Message le Mer Sep 01, 2010 12:43

Une petite question pour les spécialistes (*) : Un aspi peut très facilement changer son user agent pour dire "je suis firefox, je suis IE, je suis duchmoll".

Mais peut il aussi simuler l'ip de son choix et par exemple se connecter a un site avec l'IP de google ou de yahoo ? si oui comment ?

(*) ca c'est typiquement une question pour les jcaron and Co :wink:


rudddy
WRInaute accro
WRInaute accro
 
Messages: 2570
Inscription: 1 Aoû 2007

Re: Que peut simuler un aspi ?

Message le Mer Sep 01, 2010 15:17

ca c'est typiquement une question à moi
Zecat a écrit:Mais peut il aussi simuler l'ip de son choix et par exemple se connecter a un site avec l'IP de google ou de yahoo ? si oui comment ?

Quel est ton prochain dessein crasseux ? :twisted:


Zecat
WRInaute accro
WRInaute accro
 
Messages: 12002
Inscription: 1 Mar 2005

Re: Que peut simuler un aspi ?

Message le Mer Sep 01, 2010 15:21

rudddy a écrit:ca c'est typiquement une question à moi
Zecat a écrit:Mais peut il aussi simuler l'ip de son choix et par exemple se connecter a un site avec l'IP de google ou de yahoo ? si oui comment ?

Quel est ton prochain dessein crasseux ? :twisted:

Je n'ai aucun dessin crasseux, c'est juste pour mieux les contrer. J'ai mis en place une usine anti aspi sur un site et un pote me lache dans un mail : "il suffit que l'aspi spoof l'ip et le user agent d'un bot connu et ton systeme est out" :cry:

Donc j'essaye de savoir ce qui est possible ou pas et comment pour mieux le contrer ..

MagicYoyo
WRInaute accro
WRInaute accro
 
Messages: 2877
Inscription: 24 Mai 2004

spoofing d'IP

Message le Mer Sep 01, 2010 15:40

Faire du spoofing d'IP pour aspirer un site n'a d'intérêt que si le site fait du cloaking. Le spoofing d'IP, c'est pas à la portée du premier kikoulol venu.


Shunkawakan
WRInaute discret
WRInaute discret
 
Messages: 181
Inscription: 22 Mar 2009

Re: Que peut simuler un aspi ?

Message le Mer Sep 01, 2010 16:14

[HS]
MagicYoyo a écrit:Le spoofing d'IP, c'est pas à la portée du premier kikoulol venu.

Zecat !! t'es un Kikoulol !!! :lol:
[/HS]
Ok... :arrow:

jcaron
WRInaute accro
WRInaute accro
 
Messages: 2685
Inscription: 13 Fév 2004

Le spoofing d'IP en TCP (et donc en HTTP)

Message le Mer Sep 01, 2010 16:54

Le spoofing d'IP à la base c'est super facile (c'est un peu comme avec le mail, c'est toi qui choisis ce que tu mets comme émetteur). Le spoofing d'IP en TCP (et donc en HTTP) c'est nettement plus difficile, vu qu'il ne va jamais recevoir les réponses, donc il a du mal à faire un discussion complète. Il fut un temps il y avait des failles dans de nombreuses implémentations de TCP qui permettaient de continuer à "discuter" même sans recevoir les réponses, en devinant ce qu'elles devaient être; ce n'est généralement plus le cas de nos jours.

Donc si tu te limites à du HTTP et si tu vérifies les IPs elles-mêmes et les compares à des IPs dont il est établi de façon certaine que ce sont celles des crawlers de Google, tu n'as pas trop de risque.

Si par contre pour déterminer si c'est une IP Google ou autre tu consultes le reverse DNS, ça c'est très facile à manipuler. Il faut donc dans ce cas refaire un lookup "forward" pour vérifier que le nom renvoyé correspond bien à l'IP.

Exemple: tu reçois une requête de l'IP 1.2.3.4. Tu fais un lookup reverse, on te dit que c'est crawler-5678.google.com. Si tu t'arrêtes-là, tu pourrais croire que c'est Google. Mais si tu fais un lookup "forward" de crawler-5678.google.com, soit tu ne vas rien obtenir (NXDOMAIN), soit tu vas obtenir une ou plusieurs adresses IP qui ne correspondent pas (par exemple 5.6.7.8 et 6.7.8.9). Dans ce cas, tu peux douter assez sérieusement que ce soit effectivement Google (mais pas à 100%: il y a beaucoup de cas où les reverse et forward DNS ne sont pas vraiment correctement configurés). Evidemment, tes regex doivent aussi être un minimum sûres, que le gars qui te balance comme reverse crawler.5678-google.com ou crawler.google.com.5678.com ne soit pas accepté, par exemple (ce qui est vite fait si tu oublies d'escaper les . ou d'ancrer ta regex).

Note cependant que suivant ce dont tu cherches à te protéger exactement, toutes sortes d'"attaques" sont concevables qui utiliseraient en fait des vrais serveurs de Google ou d'autres pour venir voir des trucs chez toi plus ou moins téléguidés par quelqu'un d'autre, mais c'est probablement une autre problématique.

Jacques.


Zecat
WRInaute accro
WRInaute accro
 
Messages: 12002
Inscription: 1 Mar 2005

Re: Que peut simuler un aspi ?

Message le Mer Sep 01, 2010 17:09

MagicYoyo a écrit:Faire du spoofing d'IP pour aspirer un site n'a d'intérêt que si le site fait du cloaking. Le spoofing d'IP, c'est pas à la portée du premier kikoulol venu.

Bon ca me rassure ... je viens d faire un test en live avec madri ... et manifestement ma detection tient la route ... la seule ruse a été de passer par google mobile pour choper un morceau seulement d'une page ... je suis en train de verrouiller ca aussi ...


finstreet
WRInaute accro
WRInaute accro
 
Messages: 16999
Inscription: 10 Juil 2005

Re: Que peut simuler un aspi ?

Message le Mer Sep 01, 2010 19:26

Zecat a écrit:Que peut simuler un aspi ?


Une femme ?

:arrow:


Leonick
WRInaute accro
WRInaute accro
 
Messages: 19595
Inscription: 8 Aoû 2004

Re: Que peut simuler un aspi ?

Message le Mer Sep 01, 2010 20:49

et un subterfuge du genre mettre une ip de google et comme adresse de proxy son ip perso et, en fait, l'information s'arrêterait sur le proxy (vu que c'est le vrai demandeur).
Est-ce faisable, parce que j'ai vu dans mes logs des fois des bizarreries de ce genre ?


Haroeris
WRInaute impliqué
WRInaute impliqué
 
Messages: 601
Inscription: 13 Avr 2010

Re: Que peut simuler un aspi ?

Message le Jeu Sep 02, 2010 8:55

Ne pourrais on pas imaginer un aspirateur qui au lieux de se connecter sur ton site, se connecterait au cache google lui même.
Que pourrais tu faire contre cela ? (a part peut être interdire la mise en cache par google ^^)


finstreet
WRInaute accro
WRInaute accro
 
Messages: 16999
Inscription: 10 Juil 2005

Re: Que peut simuler un aspi ?

Message le Jeu Sep 02, 2010 11:03

Haroeris a écrit:Ne pourrais on pas imaginer un aspirateur qui au lieux de se connecter sur ton site, se connecterait au cache google lui même.
Que pourrais tu faire contre cela ? (a part peut être interdire la mise en cache par google ^^)


en même temps s'ils aspirent le cache de google où est le soucis ? il consomme pas ma bande passante, et Google aura tot fait de l'arrêter en bloquant son ip :)


Haroeris
WRInaute impliqué
WRInaute impliqué
 
Messages: 601
Inscription: 13 Avr 2010

Re: Que peut simuler un aspirateur de site ? UserAgent, IP

Message le Jeu Sep 02, 2010 11:11

Je pensais que c'était surtout pour protéger ton contenu :wink:
Pour l'ip ça c'est pas un problème, des sites comme positeo ont résolus ce genre de problème depuis longtemps :mrgreen:
Il suffit d'avoir des milliers de proxys à disposition, plusieurs box internet, et quelques centaines de milliers de PC zombis fournis par les russes :D


Zecat
WRInaute accro
WRInaute accro
 
Messages: 12002
Inscription: 1 Mar 2005

Re: Que peut simuler un aspirateur de site ? UserAgent, IP

Message le Jeu Sep 02, 2010 11:44

Est ce que la solution ultime n'est pas :

1 - avoir une liste de robots identifiés (google, yahoo etc)
2 - Identifier le type de visite sur la page (pages de recherche, referent, navigation interne dans le site, accès direct)
3 - Interdir d'office toute visite en accès direct a une page et n'autoriser que :

- ce qui vient d'un lien referant
- ce qui vient d'une page de recherche
- les navigations internes

(Bien sur permettre les accès directs pour les robots identifiés.

Vous en pensez quoi ?


Haroeris
WRInaute impliqué
WRInaute impliqué
 
Messages: 601
Inscription: 13 Avr 2010

Re: Que peut simuler un aspirateur de site ? UserAgent, IP

Message le Jeu Sep 02, 2010 11:58

Je dirais qu'il faut limiter le nombre de hit par minute pour tout robot non identifié, et rediriger soit vers une page html minimaliste sur ton serveur soit vers un fichier texte de 50mega hébergé à un autre endroit :wink:


finstreet
WRInaute accro
WRInaute accro
 
Messages: 16999
Inscription: 10 Juil 2005

Re: Que peut simuler un aspirateur de site ? UserAgent, IP

Message le Jeu Sep 02, 2010 12:17

Zecat a écrit:Est ce que la solution ultime n'est pas :

1 - avoir une liste de robots identifiés (google, yahoo etc)
2 - Identifier le type de visite sur la page (pages de recherche, referent, navigation interne dans le site, accès direct)
3 - Interdir d'office toute visite en accès direct a une page et n'autoriser que :

- ce qui vient d'un lien referant
- ce qui vient d'une page de recherche
- les navigations internes

(Bien sur permettre les accès directs pour les robots identifiés.

Vous en pensez quoi ?


Vu que la tendance générale va à la disparition du référent et aux navigations privées. C'est pas gagné tout ca

Que peut simuler un aspirateur de site ? UserAgent, IP

Si vous avez aimé cette discussion, partagez-la sur vos réseaux sociaux préférés :

Formation recommandée sur ce thème :

Formation REFERENCEMENT naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.

Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.

Lectures recommandées sur ce thème :



Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 1 invité