Crawler de manière anonyme


blman
WRInaute accro
WRInaute accro
 
Messages: 3077
Inscription: 5 Sep 2003

Crawler de manière anonyme

Message le Jeu Déc 15, 2011 14:41

Coucou les WRinautes...

Je suis en train de développer un crawler pour récupérer des prix sur plusieurs sites e-commerce que je dois surveiller.
Le crawler est développé, il récupère bien les infos que je lui demande.

Il me manque juste une chose : l'anonymat.
J'utilise la librairie cURL en PHP (tout est développé en PHP). Je me fait bien passé pour un utilisateur lamba (Mozilla), etc...
Le problème, c'est que j'utilise toujours la même IP.

J'ai testé avec plusieurs proxys anonymes trouvés sur le net mais généralement, soit c'est hyper lent, soit le proxy ne fonctionne pas.
Sinon, je pourrais, à l'avenir, redémarrer automatiquement le modem (zone non dégroupé) pour obtenir un changement d'IP. Mais, je sens que cette solution n'est pas adapté à long terme...

Donc voici mes questions :
- passer par des proxys anonymes vous semble-t-il être la meilleure solution ? Si non, que choisiriez-vous ? Avez vous un webService (même payant) à me recommander ?
- avez-vous déjà développé ce type d'outil et peut-être pourriez-vous partagez quelques retours avec moi (en MP si il faut) ?

Merci d'avance pour vos réponses.


blman
WRInaute accro
WRInaute accro
 
Messages: 3077
Inscription: 5 Sep 2003

Re: Crawler de manière anonyme

Message le Jeu Déc 15, 2011 18:26

Pour info, j'ai trouvé ça http://hidemyass.com/proxy-list/ (en version premium) pour avoir une liste de proxy anonyme. Est-ce que quelqu'un a déjà testé ?


zeb
WRInaute accro
WRInaute accro
 
Messages: 4553
Inscription: 5 Déc 2004

Re: Crawler de manière anonyme

Message le Jeu Déc 15, 2011 18:53

N'as tu pas un serveur autre qui ne serait pas lié a ton site pour faire le travail a ta place ?


spout
WRInaute accro
WRInaute accro
 
Messages: 4377
Inscription: 14 Mai 2003

Re: Crawler de manière anonyme

Message le Jeu Déc 15, 2011 19:12

Avec Tor je pense que c'est possible: https://www.torproject.org/

_Soul
WRInaute impliqué
WRInaute impliqué
 
Messages: 503
Inscription: 26 Avr 2011

Re: Crawler de manière anonyme

Message le Jeu Déc 15, 2011 19:22

Tu peux tenter le scrape de proxy à la volée mais c'est pas très performant. Je te conseilles les privés.

Hide my ass c'est sur utilisé, aucun intérêt.


blman
WRInaute accro
WRInaute accro
 
Messages: 3077
Inscription: 5 Sep 2003

Re: Crawler de manière anonyme

Message le Ven Déc 16, 2011 10:04

@zeb : si bien sûr. Je fais tourner le truc en local sur un easyPhp pour le moment. Quand il sera en prod, il tournera sur une machine en local, avec sa propre connexion internet. Le problème, c'est qu'avec une IP fixe, je me fais grillé hyper facilement par les sites que je crawl, l'objectif étant de crawler en furtif.

@Spout : merci pour le lien, je vais aller voir ça de plus près

@_Soul : Oui, j'ai vu que ce n'était pas très performant. Merci en tout cas, de me l'avoir confirmer. Aurais-tu des privés à me conseiller ?


blman
WRInaute accro
WRInaute accro
 
Messages: 3077
Inscription: 5 Sep 2003

Re: Crawler de manière anonyme

Message le Mer Jan 11, 2012 17:45

Merci Spout pour la piste de Tor Project, que je ne connaissais pas du tout. Ca me parait être une très bonne solution d'après les tests que j'ai pu faire. Je peux maintenant changer d'IP autant de fois que je le désire, et de manière automatique. Et en plus, ce n'est pas si lent que ça.

Pour ceux que ça pourrait interresser :
- j'ai téléchargé le bundle Vidalia (Tor + proxy Polipo + quelques autres trucs), installer et configurer le tout.
- j'ai configuré mon script PHP Curl pour qu'il passe par le proxy Polipo ( tuto ici : http://www.andrehonsberg.com/article/php-anonymous-curl-requests-using-tor que j'ai adapté à mes besoins )
- et ensuite un script qui demande automatiquement une "nouvelle identité" toutes les X minutes ( http://w-shadow.com/blog/2008/06/20/tor-how-to-new-identity-with-php/ trouvé tout fait sur le net... Du bonheur ! )

Voila, pour le moment, ça fonctionne parfaitement mais je dois encore faire des tests à plus grande échelle car j'ai des milliers de prix à scanner tous les jours.

Merci encore pour votre aide ;)


spout
WRInaute accro
WRInaute accro
 
Messages: 4377
Inscription: 14 Mai 2003

Re: Crawler de manière anonyme

Message le Mer Jan 11, 2012 21:15

Merci d'avoir partagé ta solution ;)


Si vous avez aimé cette discussion, partagez-la sur vos réseaux sociaux préférés :

Lectures recommandées sur ce thème :



Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités