Crawler de manière anonyme
8 messages
• Page 1 sur 1
-

blman - WRInaute accro

- Messages: 3077
- Inscription: 5 Sep 2003
Crawler de manière anonyme
Coucou les WRinautes...
Je suis en train de développer un crawler pour récupérer des prix sur plusieurs sites e-commerce que je dois surveiller.
Le crawler est développé, il récupère bien les infos que je lui demande.
Il me manque juste une chose : l'anonymat.
J'utilise la librairie cURL en PHP (tout est développé en PHP). Je me fait bien passé pour un utilisateur lamba (Mozilla), etc...
Le problème, c'est que j'utilise toujours la même IP.
J'ai testé avec plusieurs proxys anonymes trouvés sur le net mais généralement, soit c'est hyper lent, soit le proxy ne fonctionne pas.
Sinon, je pourrais, à l'avenir, redémarrer automatiquement le modem (zone non dégroupé) pour obtenir un changement d'IP. Mais, je sens que cette solution n'est pas adapté à long terme...
Donc voici mes questions :
- passer par des proxys anonymes vous semble-t-il être la meilleure solution ? Si non, que choisiriez-vous ? Avez vous un webService (même payant) à me recommander ?
- avez-vous déjà développé ce type d'outil et peut-être pourriez-vous partagez quelques retours avec moi (en MP si il faut) ?
Merci d'avance pour vos réponses.
Je suis en train de développer un crawler pour récupérer des prix sur plusieurs sites e-commerce que je dois surveiller.
Le crawler est développé, il récupère bien les infos que je lui demande.
Il me manque juste une chose : l'anonymat.
J'utilise la librairie cURL en PHP (tout est développé en PHP). Je me fait bien passé pour un utilisateur lamba (Mozilla), etc...
Le problème, c'est que j'utilise toujours la même IP.
J'ai testé avec plusieurs proxys anonymes trouvés sur le net mais généralement, soit c'est hyper lent, soit le proxy ne fonctionne pas.
Sinon, je pourrais, à l'avenir, redémarrer automatiquement le modem (zone non dégroupé) pour obtenir un changement d'IP. Mais, je sens que cette solution n'est pas adapté à long terme...
Donc voici mes questions :
- passer par des proxys anonymes vous semble-t-il être la meilleure solution ? Si non, que choisiriez-vous ? Avez vous un webService (même payant) à me recommander ?
- avez-vous déjà développé ce type d'outil et peut-être pourriez-vous partagez quelques retours avec moi (en MP si il faut) ?
Merci d'avance pour vos réponses.
-

blman - WRInaute accro

- Messages: 3077
- Inscription: 5 Sep 2003
Re: Crawler de manière anonyme
Pour info, j'ai trouvé ça http://hidemyass.com/proxy-list/ (en version premium) pour avoir une liste de proxy anonyme. Est-ce que quelqu'un a déjà testé ?
-

spout - WRInaute accro

- Messages: 4377
- Inscription: 14 Mai 2003
Re: Crawler de manière anonyme
Avec Tor je pense que c'est possible: https://www.torproject.org/
-

blman - WRInaute accro

- Messages: 3077
- Inscription: 5 Sep 2003
Re: Crawler de manière anonyme
@zeb : si bien sûr. Je fais tourner le truc en local sur un easyPhp pour le moment. Quand il sera en prod, il tournera sur une machine en local, avec sa propre connexion internet. Le problème, c'est qu'avec une IP fixe, je me fais grillé hyper facilement par les sites que je crawl, l'objectif étant de crawler en furtif.
@Spout : merci pour le lien, je vais aller voir ça de plus près
@_Soul : Oui, j'ai vu que ce n'était pas très performant. Merci en tout cas, de me l'avoir confirmer. Aurais-tu des privés à me conseiller ?
@Spout : merci pour le lien, je vais aller voir ça de plus près
@_Soul : Oui, j'ai vu que ce n'était pas très performant. Merci en tout cas, de me l'avoir confirmer. Aurais-tu des privés à me conseiller ?
-

blman - WRInaute accro

- Messages: 3077
- Inscription: 5 Sep 2003
Re: Crawler de manière anonyme
Merci Spout pour la piste de Tor Project, que je ne connaissais pas du tout. Ca me parait être une très bonne solution d'après les tests que j'ai pu faire. Je peux maintenant changer d'IP autant de fois que je le désire, et de manière automatique. Et en plus, ce n'est pas si lent que ça.
Pour ceux que ça pourrait interresser :
- j'ai téléchargé le bundle Vidalia (Tor + proxy Polipo + quelques autres trucs), installer et configurer le tout.
- j'ai configuré mon script PHP Curl pour qu'il passe par le proxy Polipo ( tuto ici : http://www.andrehonsberg.com/article/php-anonymous-curl-requests-using-tor que j'ai adapté à mes besoins )
- et ensuite un script qui demande automatiquement une "nouvelle identité" toutes les X minutes ( http://w-shadow.com/blog/2008/06/20/tor-how-to-new-identity-with-php/ trouvé tout fait sur le net... Du bonheur ! )
Voila, pour le moment, ça fonctionne parfaitement mais je dois encore faire des tests à plus grande échelle car j'ai des milliers de prix à scanner tous les jours.
Merci encore pour votre aide
Pour ceux que ça pourrait interresser :
- j'ai téléchargé le bundle Vidalia (Tor + proxy Polipo + quelques autres trucs), installer et configurer le tout.
- j'ai configuré mon script PHP Curl pour qu'il passe par le proxy Polipo ( tuto ici : http://www.andrehonsberg.com/article/php-anonymous-curl-requests-using-tor que j'ai adapté à mes besoins )
- et ensuite un script qui demande automatiquement une "nouvelle identité" toutes les X minutes ( http://w-shadow.com/blog/2008/06/20/tor-how-to-new-identity-with-php/ trouvé tout fait sur le net... Du bonheur ! )
Voila, pour le moment, ça fonctionne parfaitement mais je dois encore faire des tests à plus grande échelle car j'ai des milliers de prix à scanner tous les jours.
Merci encore pour votre aide
8 messages
• Page 1 sur 1
Lectures recommandées sur ce thème :
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités

