Commente détecter les copieurs ?

WRInaute accro
Bonjour

Mon site ( voir profil ), est un site de turf, donnant des pronostics et des statistiques sur les courses de chevaux du lendemain et de l'après-midi, ou du soir.

Ces données de GA d'hier, me font réfléchir à la possibilité quasi certaine, qu'il y a des copieurs de mes pronostics.

Taux de rebond : Environ 10%

Nbre de visites de durée <= 10 secondes : 30%.

Ceci, sur 818 visites hier, et 560 visiteurs uniques ( à peu près ).


Ce qui m'interroge, c'est ce pourcentage haut ( 30% ) de visites inférieures à 10 secondes, par rapport au taux de rebond ( 10% ).

Théoriquement, il me semble sue moins de 10 secondes, est insuffisant pour prendre connaissance de mes pronostics.

Par contre, c'est suffisant pour les copier, de manière automatique...

Du moins, une seule course, celle du Quinté, ou bien éventuellement un certain nombre de visites de la même ip, pour copier les pronos de toutes les courses.

Merci de me dire, si mon raisonnement est juste.

Dans ce cas, mon problème, serait de détecter les adresses ip copieuses, et de leur interdire définitivement l'accès à mon site.

Problème : Comment détecter les adresses ip copieuses ?

Merci beaucoup de me donner vos avis par rapport à ce problème.

Bien amicalement.

Jean François Ortolo
 
WRInaute passionné
Tu met les ip en session.
Tu notes le changement de page, si c'est inférieur à 10s, tu bloque durant 24h
Maintenant, 10s c'est un chiffre... si c'est de l'automatisation, c’est plutôt inférieur à la seconde.
 
WRInaute accro
Koxin-L.fr a dit:
Tu met les ip en session.
Tu notes le changement de page, si c'est inférieur à 10s, tu bloque durant 24h
Maintenant, 10s c'est un chiffre... si c'est de l'automatisation, c’est plutôt inférieur à la seconde.


Bonjour Koxin-L.fr ;)

Effectivement, pour celà, je peux faire fainre un sytème de pseudo sessions en MySQL + PHP, et puis détecter les changements de pages, répétitifs et rapides...

Je peux effectivement, bloquer ces ip, définitivement, et non pas pendant 24 h ?

C'est facile pour moi, d'incorporer à un script que j'ai déjà programmé ( lui-même inclus dans tous mes scripts ), un script chargé de faire à la fois la gestion des sessions, et le filtrage.

Normalement, le seul truc que j'aurais à résoudre, c'est le délai minimum, et le nombre de pages consécutives différentes ( même ip ) chargées, qui donne lieu à interdiction d'ip.

Mais... Si les cotnrevenants s'aperçivent de la chose, et ralentissent leurs accès automatiques à mon site... ;(

Je vais étudier la question.

Merci beaucoup de ton aide.

Bien amicalement.

Jean François Ortolo
 
WRInaute accro
Koxin-L.fr a dit:
Le problème du blocage définitif, c'est que si c'est pas un voleur, c'est con...


Bonjour Koxin-L.fr

Ok. Donc 24h.

Mais, si c'est un bot de moteur de recherche ?

Je peux éventuellement ( rapidement, je sais faire ), calculer le reverse de l'adresse ip.

Mais, ne serait-ce que pour Google lui-même, le reverse n'existe pas toujours ?

Google recommande, pour le détecter, de prendre son user agent... Ce n'est pas fiable.

Seule solution théorique : Si le reverse est différent de l'ip elle-même ( le reverse existe ), à ce moment-là, vérifier s'il ne contient pas des noms de moteurs de recherche ?

Qu'y -a-t-il comme solution, pour détecter qu'une ip est celle d'un moteur de recherche ?

Le logiciel GoogleBot, il me semble, faisait cette détection.

Je l'ai acheté, je crois, il y a de nombreuses années, mais je ne l'ai plus, je crois même qu'il n'est plus commercialisé. ;(

Merci beaucoup de vos réponses.

Bien amicalement.

Jean François Ortolo
 
WRInaute passionné
En balançant l'IP direct dans Google, tu tombera sur des résultats et si c'est une possible adresse d'un bot "important", les résultat te le feront savoir. Plein de sites s'amusent à lister les IP des searchbot.
 
WRInaute accro
Koxin-L.fr a dit:
En balançant l'IP direct dans Google, tu tombera sur des résultats et si c'est une possible adresse d'un bot "important", les résultat te le feront savoir. Plein de sites s'amusent à lister les IP des searchbot.


Bonsoir Koxin-L.fr

Je n'ai pas compris ce que tu veux dire.

Que veux-tu dire, avec : "En balançant l'IP direct dans Google" ?

En ce qui me concerne, j'ai déjà mis en place sur mon site, le code pour alimenter une table MySQL : FORBIDDEN_IP, et aussi logguer mes visiteurs : LOGS_IP.

J'ai fait la fonction détectant si une ip est permise ou non, mais je ne l'ai pas activée, car je n'ai pas encore la possibilité, de détecter les bots.

Je n'ai plus qu'à fixer le délai ( de 2 à 10 secondes ), suivant les résultats ( faux positifs dans la table des ip interdites ).

Actuellement, je pense que j'ai encore des faux positifs.

L'astuce que j'ai utilisée, est que que je ne loggue une adresse ip, au maximum que sur les deux derniers accès.

Celà me permet, de n'avoir que relativement peu d'enregistrements dans cette table MySQL.

Par contre, la table MySQL, des ips interdites, contient ces ip pendant 24 heures. ;)

J'ai déjà loggué, le reverse http://---.coucou-networks.fr de free Mobile. ;)

Merci beaucoup de ta réponse.

Bien amicalement.

Jean François Ortolo
 
WRInaute accro
studio-creations a dit:
Fais un copier coller de l'IP dans la recherche Google.


Bonjour studio-creations

Ok, j'ai compris. ;)

Actuellement, depuis hier soir ma table MySQL FORBIDDEN_IP est censé se remplir, avec des adresses ip, reverse éventuels, et moments de troisième visite rapide, des ip faisant du téléchargement abusif de mon site.

Je peux examiner une par une, ces adresses ip, et éventuellemet par leur reverse, déterminer s'il y a lieu de les backlister.

Je peux aussi les noter sinon, pour voir si celà se répète.

Eventuellement, me renseigner pour savoir si quelques-unes d 'entre elles, appartiennent à des abonnés fibre optique, ce qui pourrait expliquer ce problème de rapidité...

Eventuellemet aussi, contacter les contrevenants, qu'ils s'expliquent sur leur manière de naviguer sur mon site. ;)

Pour les adresses sans reverse, je ferai come tu as dit. ;)

Je vais faire celà après mon ptit-déj. ;)

Merci beaucoup de ta réponse.

Bien amicalement.

Jean François Ortolo
 
WRInaute passionné
ortolojf a dit:
Je peux aussi les noter sinon, pour voir si celà se répète.
Via un script auto, j'espère. :)

ortolojf a dit:
Eventuellement, me renseigner pour savoir si quelques-unes d 'entre elles, appartiennent à des abonnés fibre optique, ce qui pourrait expliquer ce problème de rapidité...
La rapidité de téléchargement ne change pas le fait qu'un internaute doivent passer plus de 5s sur une page pour en lire le contenu.

ortolojf a dit:
contacter les contrevenants, qu'ils s'expliquent sur leur manière de naviguer sur mon site. ;)
Avec juste l'ip, ça risque d'être "sportif". ;-)
 
WRInaute discret
La rapidité de téléchargement ne change pas le fait qu'un internaute doivent passer plus de 5s sur une page pour en lire le contenu.
Tu vas avoir beaucoup de faux positif avec 5s, l'internaute peut cliquer rapidement sur les menus sans rien lire car il recherche une page en particulier.
 
WRInaute accro
shaman99 a dit:
La rapidité de téléchargement ne change pas le fait qu'un internaute doivent passer plus de 5s sur une page pour en lire le contenu.
Tu vas avoir beaucoup de faux positif avec 5s, l'internaute peut cliquer rapidement sur les menus sans rien lire car il recherche une page en particulier.


Bonjour Monsieur

J'y ai pensé.

Je fais actuellement, des essais pour détecter le cas où il y a des faux positifs.

Bien amicalement.

Jean François Ortolo
 
WRInaute accro
Koxin-L.fr a dit:
ortolojf a dit:
Je peux aussi les noter sinon, pour voir si celà se répète.
Via un script auto, j'espère. :)

ortolojf a dit:
Eventuellement, me renseigner pour savoir si quelques-unes d 'entre elles, appartiennent à des abonnés fibre optique, ce qui pourrait expliquer ce problème de rapidité...
La rapidité de téléchargement ne change pas le fait qu'un internaute doivent passer plus de 5s sur une page pour en lire le contenu.

ortolojf a dit:
contacter les contrevenants, qu'ils s'expliquent sur leur manière de naviguer sur mon site. ;)
Avec juste l'ip, ça risque d'être "sportif". ;-)


Bonjour Monsieur

Je vais faire sous peu, un script lisant les données de cette table des ips interdites, qui sera peut-être lancé automatiquement par cron de temps en temps. ;)

Ok pour le problème des fibrés optique.

Normalement, mes essais devraient valider mon approche, que je ne dévoile pas entièrement. ;)

Quant au 3, je pense n'interdire ( manuellement ), des ips, qu'après avoir la certitude raisonnable, que ce sont des copieurs.

Si ce procédé ( que tu m'as indiqué ;) ) se révèle efficace, le trafic de mon site est susceptible de progresser. ;)

Bien amicalement.

Jean François Ortolo
 
WRInaute passionné
shaman99 a dit:
La rapidité de téléchargement ne change pas le fait qu'un internaute doivent passer plus de 5s sur une page pour en lire le contenu.
Tu vas avoir beaucoup de faux positif avec 5s, l'internaute peut cliquer rapidement sur les menus sans rien lire car il recherche une page en particulier.
D'ou, le ban de 24h uniquement si l'ip semble "douteuse".
 
WRInaute accro
Koxin-L.fr a dit:
shaman99 a dit:
Tu vas avoir beaucoup de faux positif avec 5s, l'internaute peut cliquer rapidement sur les menus sans rien lire car il recherche une page en particulier.
D'ou, le ban de 24h uniquement si l'ip semble "douteuse".


Bonjour Monsieur

En fait, cette table MySQL des ips douteuses, ne conserve ces ips douteuses que durant au plus 24h.

C'est pour celà, que je compte lancer quotidiennement par cron ce script mettant à jour un fichier ( une page html éventuellement ), qui contiendra les données logguées.

Mon procédé de détection, consiste à lisser les temps accès sur un certain nombre de pages consécutives chargées, et de détecter les temps d'accès lissés trop courts.

Je peux modifier comme je veux, le délai minimum entre chaque pages consécutives, ainsi que le nombre des pages consécutiives différentes concernées.

Ceci, plus quelques autres vérifications manuelles ( reverse, user agent, emplacement géographique des ips ), donnera à cete détection, un peu plus d'efficacité.

Sans compter le retour sur expérience... ;)

Je ferai ces backlistages de façon manuelle, et de durée suffisante pour que les backlistés doivent me contacter por être réintégrés.

Je pense déjà, que je ne peux pas rendre ce procédé de backlistage automatique.

Bien amicalement.

Jean François Ortolo
 
WRInaute accro
Allez... je vais te poser une question simple. Qqun vient sur ton site. Il ne voit qu'une seule page. Il est resté 1 seconde ou 3 heures ? Bonne dissert' :)
 
WRInaute accro
attention, car pour prendre mon exemple, si je vois plusieurs liens intéressants sur une page, j'ouvre chaque lien dans un onglet différent, ce qui fait que je peux très bien ouvrir 3-4 pages en moins de 5 secondes.
ces pages, je les lirais ensuite, délais qui peut s'échelonner entre quelques minutes et quelques heures
 
WRInaute accro
Koxin-L.fr a dit:
finstreet a dit:
Allez... je vais te poser une question simple. Qqun vient sur ton site. Il ne voit qu'une seule page. Il est resté 1 seconde ou 3 heures ? Bonne dissert' :)
Un coup de js et c'est réglé. :)


Bonjour Koxin-L.fr

Je suppose, qu'il s'agit des événéments Javascript : "onfocus", et "onblur" sur le body de la page.

Ok, je sais faire genre petit Ajax, mais celà peut se produire aussi pour les rebonds normaux. ( faible délai entre ces deux événements ).

Surtout, les copieurs automatiques, n'ont jamais javascript activé.

Merci de me détromper si je fais une erreur.

Bien amicalement.

Jean François Ortolo
 
WRInaute accro
Leonick a dit:
attention, car pour prendre mon exemple, si je vois plusieurs liens intéressants sur une page, j'ouvre chaque lien dans un onglet différent, ce qui fait que je peux très bien ouvrir 3-4 pages en moins de 5 secondes.
ces pages, je les lirais ensuite, délais qui peut s'échelonner entre quelques minutes et quelques heures


Bonjour Leonick

Ce délai court, suppose que les visiteurs, savent où seront les liens sur la première page, et où ces liens conduiront.

Ce n'est pas le cas pour les données copiables.

Il n'est pas possible de naviguer sur mon site, directement d'une course à l'autre.

Il faut passer par la page donnant la liste des réunions et des courses.

Et... Cette liste ( ces listes ), ne sont évidemment pas les mêmes d'un jour à l'autre.

De ce côté-là, pas de problème.

Il faut effectivement, prendre connaissance de chaque page, pour en tirer, ne serait-ce que les pronostics.

Cependant, le hic est de savoir, quel serait le délai minimum moyen entre deux pages, même pour un visiteur ayant la fibre optique.

Imaginez : J'ai même repéré ce matin, un théorique contrevenant, qui avait pour reverse :

deimos.ac-grenoble.fr

Et puis un autre site ( d'après le reverse ), qui n'est même pas accessible à distance.

Le blème, ce sont les reverse d'abonnés réels à Internet, et de fixer ce délai minimum.

Une fois que ce sera fait, çà roule. ;)

A la limite, les contrevenants, auront intérêt à consulter réellement mon site manuellement. ;)

Bien amicalement.

Jean François Ortolo
 
Discussions similaires
Haut