cURL et statistiques

Nouveau WRInaute
Bonjour à tous,

J'ai une petite question qui me taraude : j'utilise cURL pour aller visiter les sites de mes concurrents et rapporter quelques informations de veille (rien de bien méchant...)

Est-ce que le passage de mon script sur leurs sites internet est transparent ou le voient-ils sur leurs statistiques ?

D'avance merci pour votre réponse,
 
WRInaute passionné
si tu mets un user agent qui ressemble à ceux des navigateurs et que tu ne mets pas l'aspirateur à fond (pas trop de pages et récupération de chacune avec un petit sleep() entre) il y a peu de chance de se faire repérer.
 
WRInaute passionné
C'est impossible de détecter CURL si tu paramètres bien les options et que l'IP de ton serveur n'abuse pas.
 
Nouveau WRInaute
Ok, donc y aller molo et ajouter un sleep() pour ne pas se faire repérer.

Merci à tous pour vos réponses,

Thibaut
 
WRInaute impliqué
souri84 a dit:
Ok, donc y aller molo et ajouter un sleep() pour ne pas se faire repérer.

Merci à tous pour vos réponses,

Thibaut

Pas forcément.
Tu crois que le navigateur met des temporisations pour récupérer toutes les ressources du site (image, css, JS, etc.) ?

Si tu gères les cookies et un ptit referer propre, ils ne peuvent pas être sur à 100% que tu ne sois pas un humain.
 
WRInaute impliqué
finstreet a dit:
forty a dit:
C'est impossible de détecter CURL si tu paramètres bien les options et que l'IP de ton serveur n'abuse pas.

User-Agent: vBulletin via cURL/PHP

C'est pas tous les curl mais bon...

Bin justement, le but est de configurer cURL pour qu'il se fasse passer pour un navigateur du marché, et cela se fait très simplement. C'est d'ailleurs la première chose que je fais quand j'utilise cURL.
Et c'est ce qui sera fait si le gars se rend compte qu'il ne récupère rien ;)
 
WRInaute impliqué
Pourquoi cela ne le serait pas ?
Interdire la récupération de contenu revient à interdire la navigation sur le site. Tout dépend de ce qui est fait.
 
WRInaute accro
Petite nuance. Il y a visite, aspiration, avec l'impossibilité de bloquer cet acte (comme tout robot "officiel"). Et comme tu dis, ca dépend de ce qui est fait du contenu. Par exemple, faire de la veille et revendre une information provenant d'une aspiration de site que le site ne peut interdire. Pas sur que ce soit légal.
 
WRInaute impliqué
Oui, mais il est tout à fait possible de faire cela avec un navigateur comme Firefox. La légalité n'a rien à voir avec l'outil utilisé.
Je peux très bien utiliser cURL pour me faire un navigateur maison, il en est capable ;)

Un outils d'agrégation de flux RSS/Atom pourrait très bien utiliser cURL.

Donc, ce n'est pas l'outil qui est à contrôler, c'est ce qui est fait avec le contenu récupéré.
 
Nouveau WRInaute
Lorsque j'aspire des pages de Yahoo avec un sleep(), il me bloque quand même à un certain niveau et je n'ai pas trouvé comment contourner ce blocage. Pourtant, mon sleep est de 2s et je pensais que cela suffirait mais ce n'est pas le cas.
 
WRInaute impliqué
finstreet a dit:
Blount... quelque soit l'outil, je ne suis pas sur que légalement, tu aies le droit d'aspirer tout un site.

La question est de savoir pourquoi ce ne serait pas légale ? Si je souhaite m'en faire une copie pour une utilisation hors ligne ?
Si Google a le droit, pourquoi pas moi ?

Je ne dirais pas que c'est légale ou non, je ne sais pas. Personnellement, j'ai aspiré un site une fois pour tester « wget », je n'ai jamais recommencé puisqu'inutile pour moi.

De toute façon, je ne faisais pas référence à cURL pour l'aspiration de site entier.
 
WRInaute accro
Google aurait le droit car il y a la possibilité de bloquer ce robot. Il ne se cache pas.

Cependant, si l'aspiration est automatique et se traduit par un plantage du site (possible pour le petit site), alors là y'a un soucis, car c'est interprété comme une attaque informatique au sens de la loi
 
Nouveau WRInaute
et bien quel débat ! :D

Le site en question fait environ 100 000 visiteurs par jour. Ce n'est donc pas mon petit script qui va le planter.

Et surtout, je ne revends pas les informations récupérées sur le site (qui les fournit gratuitement - quel intérêt pour moi alors de les vendre ?)

Après, il est vrai que peux récupérer par période beaucoup de données (avec DOM si vraiment il y a bcp de données), notamment en décembre et avril et octobre. Après, les autres mois, c'est très dérisoire.
 
Discussions similaires
Haut