cURL et statistiques

souri84 · 22 Avril 2011

Bonjour à tous,

J'ai une petite question qui me taraude : j'utilise cURL pour aller visiter les sites de mes concurrents et rapporter quelques informations de veille (rien de bien méchant...)

Est-ce que le passage de mon script sur leurs sites internet est transparent ou le voient-ils sur leurs statistiques ?

D'avance merci pour votre réponse,

forty · 22 Avril 2011

si tu mets un user agent qui ressemble à ceux des navigateurs et que tu ne mets pas l'aspirateur à fond (pas trop de pages et récupération de chacune avec un petit sleep() entre) il y a peu de chance de se faire repérer.

finstreet · 23 Avril 2011

Bah chez moi, tu verras un joli... rien

car justement t'es vu.

Blount · 23 Avril 2011

finstreet a dit:
Bah chez moi, tu verras un joli... rien car justement t'es vu.

Sur quel site ?

forty · 23 Avril 2011

C'est impossible de détecter CURL si tu paramètres bien les options et que l'IP de ton serveur n'abuse pas.

souri84 · 23 Avril 2011

Ok, donc y aller molo et ajouter un sleep() pour ne pas se faire repérer.

Merci à tous pour vos réponses,

Thibaut

Blount · 23 Avril 2011

souri84 a dit:
Ok, donc y aller molo et ajouter un sleep() pour ne pas se faire repérer.

Merci à tous pour vos réponses,

Thibaut

Pas forcément.
Tu crois que le navigateur met des temporisations pour récupérer toutes les ressources du site (image, css, JS, etc.) ?

Si tu gères les cookies et un ptit referer propre, ils ne peuvent pas être sur à 100% que tu ne sois pas un humain.

finstreet · 24 Avril 2011

forty a dit:
C'est impossible de détecter CURL si tu paramètres bien les options et que l'IP de ton serveur n'abuse pas.

User-Agent: vBulletin via cURL/PHP

C'est pas tous les curl mais bon...

Blount · 24 Avril 2011

finstreet a dit:
forty a dit:

C'est impossible de détecter CURL si tu paramètres bien les options et que l'IP de ton serveur n'abuse pas.

Cliquez pour agrandir...

User-Agent: vBulletin via cURL/PHP

C'est pas tous les curl mais bon...

Bin justement, le but est de configurer cURL pour qu'il se fasse passer pour un navigateur du marché, et cela se fait très simplement. C'est d'ailleurs la première chose que je fais quand j'utilise cURL.
Et c'est ce qui sera fait si le gars se rend compte qu'il ne récupère rien

finstreet · 25 Avril 2011

et légalement c'est autorisé ?

Blount · 25 Avril 2011

Pourquoi cela ne le serait pas ?
Interdire la récupération de contenu revient à interdire la navigation sur le site. Tout dépend de ce qui est fait.

finstreet · 26 Avril 2011

Petite nuance. Il y a visite, aspiration, avec l'impossibilité de bloquer cet acte (comme tout robot "officiel"). Et comme tu dis, ca dépend de ce qui est fait du contenu. Par exemple, faire de la veille et revendre une information provenant d'une aspiration de site que le site ne peut interdire. Pas sur que ce soit légal.

Blount · 26 Avril 2011

Oui, mais il est tout à fait possible de faire cela avec un navigateur comme Firefox. La légalité n'a rien à voir avec l'outil utilisé.
Je peux très bien utiliser cURL pour me faire un navigateur maison, il en est capable

Un outils d'agrégation de flux RSS/Atom pourrait très bien utiliser cURL.

Donc, ce n'est pas l'outil qui est à contrôler, c'est ce qui est fait avec le contenu récupéré.

bartom_34 · 26 Avril 2011

Lorsque j'aspire des pages de Yahoo avec un sleep(), il me bloque quand même à un certain niveau et je n'ai pas trouvé comment contourner ce blocage. Pourtant, mon sleep est de 2s et je pensais que cela suffirait mais ce n'est pas le cas.

finstreet · 26 Avril 2011

Blount... quelque soit l'outil, je ne suis pas sur que légalement, tu aies le droit d'aspirer tout un site.

Blount · 26 Avril 2011

finstreet a dit:
Blount... quelque soit l'outil, je ne suis pas sur que légalement, tu aies le droit d'aspirer tout un site.

La question est de savoir pourquoi ce ne serait pas légale ? Si je souhaite m'en faire une copie pour une utilisation hors ligne ?
Si Google a le droit, pourquoi pas moi ?

Je ne dirais pas que c'est légale ou non, je ne sais pas. Personnellement, j'ai aspiré un site une fois pour tester « wget », je n'ai jamais recommencé puisqu'inutile pour moi.

De toute façon, je ne faisais pas référence à cURL pour l'aspiration de site entier.

finstreet · 26 Avril 2011

Google aurait le droit car il y a la possibilité de bloquer ce robot. Il ne se cache pas.

Cependant, si l'aspiration est automatique et se traduit par un plantage du site (possible pour le petit site), alors là y'a un soucis, car c'est interprété comme une attaque informatique au sens de la loi

souri84 · 26 Avril 2011

et bien quel débat !

Le site en question fait environ 100 000 visiteurs par jour. Ce n'est donc pas mon petit script qui va le planter.

Et surtout, je ne revends pas les informations récupérées sur le site (qui les fournit gratuitement - quel intérêt pour moi alors de les vendre ?)

Après, il est vrai que peux récupérer par période beaucoup de données (avec DOM si vraiment il y a bcp de données), notamment en décembre et avril et octobre. Après, les autres mois, c'est très dérisoire.