Proportion des robots sur un forum

WRInaute passionné
Bonsoir,

Ça fait un petit peu de temps que je m’interroge, et ne trouvant pas de réponse, je fini par poster ici, à la recherche d’éclairages, s’il en existe.

Sur un forum, d’après BBClone, en ne comptant pas les robots d’indexation ni même mes propre passages assez fréquents, j’ai environ 1500 affichages/jours. Je sais qu’il existe des robots qui passent leur temps à scanner tous les forums, tentent de s'y inscrire pour récolter des e-mails (non visibles même pour les membres, ils peuvent rêver les robots), mais j’estimais leur nombre, au pire, à un tiers des visites.

Depuis que j’ai ajouté des AdSense, il y environ 15 jours, je trouve, d’après AdSense, un tout petit 150 affichages par jour en moyenne.

J’ai vérifié que les AdSense s’affichent sur toutes les pages.

Je ne pense pas que AdBlock soit répandu à ce point, pour expliquer un tel écart, et en même temps, si cet écart s’expliquait par le fait qu’un grand nombre de visites sont celles de robots tentant de spammer, ça ferait un énorme ratio de robots dans le total des visites.

Je ne comprend rien.

Pour les gens qui ont des forums depuis longtemps, et qui en ont l’habitude, quel est le ratio de robots spammeurs, environ, dans le nombre total de visite ?

1500 affichages/jours, dont seulement 150 seraient le fait de vrais visiteurs, cela signifierait que 90% des visites sont en fait des visites de robots tentant de spammer ou de récolter des adresses mails. Ce serait énorme, ce n’est pas possible… ou si ? Et 90% des visiteurs utilisant AdBlock, je n’y crois pas non-plus, et ça serait en contradiction avec d’autres chiffres ailleurs.

1500 - 150 = 1350. Que sont ces 1350 affichages fantômes ?

Note : je n’ai pas voulu installer Google Analytics sur ce forum. Mais BBClone doit être raisonnablement correcte, ou non ?

Je suis perdu, je ne sais même plus où j’en suis, je ne sais plus quoi penser de l’activité de ce forum. Y a un truc qui cloche, mais quoi…
 
WRInaute passionné
Moi, je compare les rapports Adsense et mes logs du serveur.
Les robots représentent moins de 1% des hits (d'après mes logs).

Ensuite les pages vues d'après Adsense représentent environ seulement 80% à 90% des pages vues d'après les logs. Donc il y a un écart, mais pas énorme, rien à voir avec tes chiffres. On peut penser qu'il y a des bots qui se font passer pour des utilisateurs (type de browser) et qui sont loggés comme tels au niveau des logs, mais qui sont rejetés par Adsense comme utilisateurs valides.

J'oubliais, il y a aussi le bot qui essaye de spammer ton forum, en tentant de poster des commentaires automatiquement sur ton forum.... Celui la aussi te fera beaucoup de pages vues mais pas prises en compte par Adsense.

As-tu accès à tes logs? Ca te permettrait de comparer.
 
WRInaute passionné
C’est bien ce que je pensais, c’est bien trop énorme. Il n’y a que toi qui ai donné un avis, mais j’imagine que d’autres en dirait de même.

J’ai quand même oublié de donner une autre raison possible d’un écart. Les annonces ne s’affichent que pour les non‑membres et non‑connectés, donc les affichage des membres connectés, ne peuvent pas se retrouver dans le total des affichages AdSense. Mais même avec ça, je trouve que que ça fait encore beaucoup.

Je ferai d’autres statistiques personnels, sans BBClone, qui ne convient peut être pas pour mon usage.

Sinon, j’avais essayé de bloqué les robots qui viennent de Chine et d’Ukraine, mais je ne comprend pas pourquoi, ça bloquait aussi des gens en france, alors j’ai arrêté. Et j’ai bien vérifié que les gens qui se trouvaient bloqués, n’avaient pas du tout une IP dans intervalle des IP des robots que je voulais bloqué. Sais pas où j’ai gaffé.

Je voudrais me débarrasser de ce parasitage.
 
WRInaute accro
Attention avec adsense car même si il y a "demande d'annonce" elle est pas forcement satisfaites donc il faut zieuter du côté des pourcentages demande / affichage je sais plus où. ça peut aussi expliquer que tu ai moins d'affichages adsense que de visites
 
WRInaute passionné
MikeR a dit:
Ensuite les pages vues d'après Adsense représentent environ seulement 80% à 90% des pages vues d'après les logs. Donc il y a un écart, mais pas énorme, rien à voir avec tes chiffres.
Ça vient peut être finalement de AdSense. Alors que la fréquentation du forum n’a pas changé, le nombre d’affichages de pages par jour, est passé de 200 environ à 400 environ, d’un coup, depuis 3 jours.

Ça veut dire qu’il faut attendre encore plus longtemps avant de faire un bilan. Je crois que 3 ou 4 mois ne serait pas de trop.

Note en marge : il est quand même faible le CTR sur un forum. Il semble varier entre 0.3% et 0.4%; c’est peu.
 
WRInaute passionné
C’est peut être parce que la publicité chez moi, ne s’affiche pas pour les membres connectés, et que les membres connectés ne visitant probablement que très peu les annonces, étant là pour autre chose, ça doit faire nettement baisser le CTR pour un forum, que d’afficher les annonces aussi pour les membres connectés.

Il faut distinguer ces deux cas, qui ne peuvent pas être comparés.

0.3 à 0.4, c’est faible quand même :mrgreen: Mais ça peut évoluer peut‑être. Je compte être très présent sur ce forum pendant tout 2012 au moins encore, et ensuite prendre un peu de distance s’il ne marche pas, mais sans jamais l’abandonner quoiqu’il arrive.

Au fait, qui c’est qu’a tweeté ce topic ? :eek:
 
WRInaute passionné
Je viens de penser à un autre truc.

Beaucoup de gens arrivent sur le forum via la recherche d’images de Google (40 à 60%, facilement, selon les jours). En fait, quand je dis « arrivent », je devrais dire « passent à côté », parce que Google Image affiche le forum dans un eframe, avec une image posée par dessus. C’est compté comme une visite du forum, mais en fait le forum n’est pas vraiment visité, et je me demande si justement, ça n’a pas aussi un effet sur les AdSense. Je viens de faire un teste, et je vois bien celui du haut s’afficher, mais quid des autres ? Parce que évidemment, la page du forum ne peut pas être défilée. De toute manière, même s’il s’affiche, il ne peut probablement pas être cliqué normalement, et un masque alpha est appliqué de plus.

Devrais‑je ajouter un script de redirection pour que le forum ne soit jamais affiché dans l’eframe de la recherche de Google Image et que tout affichage du forum dans un eframe redirige vers le forum en lui même ?

Je ne sais pas, je pose la question, juste une idée comme ça…

Je ne me suis jamais trop posé la question de savoir si c’est bon ou pas de laisser Google Image court‑circuiter un site comme il le fait. Existe t‑il des ressources documentaires sur la question ?
 
WRInaute passionné
Sur un forum anglophone, ils parlent d’un intervalle d’adresses qui permet de bloquer plusieurs robots Ukrainien ennuyeux. Je suis tombé sur cette page en cherchant à me renseigner sur un robot qui me semblait bizarre.

Voir : AhrefsBot

My notes from a couple months ago:

Code:
deny from 213.186.96.0/19 #various bad bots at DataCenter, Ukraine

Ils se plaignent du trop grand nombre de hits de ces robots (apparement 2 robots au moins). Comme je viens de bloquer la même plage d’adresse, je pourrai dire dans quelques jours si ça m’a l’air plus clair après ce blocage ou pas.
 
WRInaute passionné
hibou57 a dit:
Ça vient peut être finalement de AdSense. Alors que la fréquentation du forum n’a pas changé, le nombre d’affichages de pages par jour, est passé de 200 environ à 400 environ, d’un coup, depuis 3 jours.
Non, en fait ça correspondait à une hausse de fréquentation temporaire due à des requêtes Google sur des thèmes de fêtes de fin d’année. Maintenant retour aux fréquentations indiquées dans la poste initial, et la proportion reste la même, et seulement entre 10% des visites semblent être des visites de vrais internautes, et je rappel que c’est en dehors des robots d’indexation des moteurs de recherche.

C’est pas possible une chose pareille, je n’y comprend rien.

Pire encore, il semble que je sois seul dans ce cas ? Je n’ai pourtant pas créé un honey pot.

-- EDIT -- Voir aussi peut‑être ce sujet : Rediriger depuis Google Image : une bonne ou mauvaise chose ? Je ne sais pas s’il est une réponse à cette question, mais il est une tentative de comprendre ce qu’il se passe.
 
WRInaute passionné
Ça pourra être plus parlant, je donne directement un extrait des statistiques BBClone, pour recevoir des avis sur ce qui me semble étrange ici aussi.

Code:
Sujet                 51868  34.68%
Panneau utilisateur   38482  25.73%
Accueil               22402  14.98%
Poste                 13472   9.01%
Chercher              12939   8.65%
Forum                  8494   5.68%
Liste des membres      1174   0.78%
Connecté(e)s            531   0.36%
FAQ                      57   0.04%
Map                      36   0.02%
L’accès au panneau utilisateur représente 26% des accès. C’est trop, c’est pas normal. Et ce ne sont as les robots de moteurs de recherche. C’est énorme, 26%, les accès aux sujets font à peine 8 à 9 points de plus, avec 34 à 35%. C’est pas normal ça.

Ça vous semble normal à vous ?

La page d’accueil, 15% des accès, ce n’est pas normal non‑plus. C’est trop, sachant que la totalité des vrais visiteurs arrivent sur un sujet.

Il faudrait peut‑être que je fasse des statistiques séparées, pour les accès connectés et les accès non‑connectés. Mais je ne pense pas que les membres passent autant de temps sur leur panneau utilisateur.
 
WRInaute passionné
Les utiliateus parasites, il y en a, par vague (parfois une trentaine en une seule journée), mais ils ne restent jamais plus que quelques heures, je les supprime. Seuls les comptes des membres actifs ou ayant été actifs, et pas pour faire du spam, restent sur ce forum, les autres je les supprime dans la journée.

La redirection pour sortir de l’iframe Google Image n’a rien changé. Je vais faire les statistiques séparés dont je parlais. Je vois ça demain.

Au fait, j’ai oublié de préciser que les extraits de statistiques plus haut, sont des valeurs sur 4 mois environ (oui, je sais, c’est pas la grande foule).
 
WRInaute passionné
J’ai par exemple plusieurs visites tous les jours, issues d’un domaine comme sr5-312.hostkey.ru. Le prefixe change, mais ça se termine toujours en hostkey.ru. Je ne sais pas si c’est du spam‑referer ou un robot spammeur classique. Ça change souvent d’IP, alors je ne sais pas comment le bloquer.

hibou57 a dit:
Sinon, j’avais essayé de bloqué les robots qui viennent de Chine et d’Ukraine, mais je ne comprend pas pourquoi, ça bloquait aussi des gens en france, alors j’ai arrêté. Et j’ai bien vérifié que les gens qui se trouvaient bloqués, n’avaient pas du tout une IP dans intervalle des IP des robots que je voulais bloqué. Sais pas où j’ai gaffé.
J’ai finalement put avoir la réponse à cette question. Pour la résumer : avec la pénurie d’adresses IPv4, des FAI français ont repris des adresses IP précédemment utilisées en Russie. D’après ma propre expérience, je dirais également des adresses précédemment utilisées en Ukraine. La liste d’IPs que j’avais utilisé, était obsolète.

Sinon, un dernier mot pour le bilan jusqu’ici : j’ai l’impression de voir une sévère recrudescence de robots depuis que je me suis inscrit sur quelques annuaires, que j’avais pourtant bien sélectionné, à l’exception d’un seul. J’ai voulu varier un peu avec un annuaire ordinaire pas nécessairement bien placé.

Je ne peux pas garantir que l’inscription dans des annuaires soit vraiment la cause, ni que ce sont chez les annuaires réputés ou sur l’annuaire peu réputé, que les robots ont été récupérer l’adresse d’un forum sur lequel ils ont décidé de s’acharner (heureusement que rien ne parait pour les membres, et que je supprime les compte de robots dès que je les repère).

Je vois maintenant, depuis quelques semaines, arriver des robots localisés en Suisse :( Je suis dégouté, même la Suisse s’y met :(
 
WRInaute passionné
Une chose que je viens de corriger.

Pour que les IP bannis sur le forum ne soient plus comptés par BBClone, j’ai déplacé le code BBClone pour qu’il se trouve après l’execution des instructions au delà desquels une IP filtré a été effectivement filtré; c’est à dire, aprés le bloc identifié par un
Code:
// Start session management
ou parfois juste un
Code:
// Start session

Avant, le code BBClone était au tout début de chaque PHP concernés. Je crois qu’il ne faut pas le faire comme ça, c’était une erreur.

Je n’ai pas put le faire avec viewtopic.php, parce que ça me renvoi des message d’erreur dans les pages, que je n’arrive pas à désactiver (pas au point BBClone). Alors pour viewtopic.php, je l’ai laissé au début, tout en haut. Mais ça ne devrait pas être grave, vu que les robots passent le plus souvent sur la page d’accueil et la page du panneau utilisateur, nettement moins souvent sur les topics.

J’ai aussi décidé ne plus me contenter de simplement supprimer les comptes des robots, mais de toujours bannir l’IP de chaque compte en même temps. J’espère juste que ça ne va pas me faire bloquer des membres légitimes. Mais comme je ne bloque plus des plages, et maintenant plutôt des IPs individuels, ça devrait aller.

Plus tard, je prendrai cette liste, pour faire des blocages directement depuis le .htaccess, pour faire l’économie au maximum de la petite charge qu’occasionnent peut‑être les accès par ces robots envahissants.

Je dirai dans une semaine si je vois une différence.
 
WRInaute accro
Note bien que tu utiliserait un script perso t'aurais pas de souci avec les bots spammeurs.
Ensuite les classiques "posting.php" "viewtopic.php" gagnent a être renommés en masse (scripts, liens ...) sur le système utilisé pour esquiver la phase de recherche de cible et devenir incompatible avec les bots de spam.
 
WRInaute passionné
zeb a dit:
Note bien que tu utiliserait un script perso t'aurais pas de souci avec les bots spammeurs.
Je sais. La diversité (*) et la meilleure protection, dans l’informatique, comme dans le vivant. Les hackers et les robots seraient bien en peine s’ils arrivaient plus souvent sur des systèmes chaque fois différents.

Mais ce forum, je l’ai repris, il n’est pas de moi à l’origine. Si j’avais ouvert un forum moi‑même, je l’aurais effectivement créé de toute pièce. Mais là, ça poserait trop de problèmes aux utilisateurs et en plus, ça me prendrait très longtemps, pour un forum qui en plus n’est même pas rentable pour moi.

Le renommage, j’y ai pensé, mais pas encore fait. Ce qui me pose problèmes aussi avec les modifications persos (déjà que j’en ai beaucoup), c’est qu’il faut tout refaire à chaque mise à jours de phpBB. Il y a récemment eu une mise à jour, que je n’appliquerai peut‑être pas à cause de ça.

Dans l’ensemble, oui, je suis d’accord. Il faudrait que le forum n’apparaisse plus aux yeux des robots, comme un système qu’ils connaissent par cœur.


(*) Le « prêt à consommer gratuit » va malheureusement dans le sens tout à fait inverse, en généralisant partout des systèmes tous identiques.
 
WRInaute accro
hibou57 a dit:
Le « prêt à consommer gratuit » va malheureusement dans le sens tout à fait inverse, en généralisant partout des systèmes tous identiques.
Et en minimisant les frais de conception. Vive le chômage cherchez l'erreur :D :wink:

Ce qui me pose problèmes aussi avec les modifications persos (déjà que j’en ai beaucoup), c’est qu’il faut tout refaire à chaque mise à jours de phpBB.
Quand j'ai installé mon premier phpBB (pour une copine) il m'a fallu deux mois pour dire "Jamais plu" :D depuis j'ai dev mon système (avec l'aide de la dite copine entre autre) et depuis j'ai jamais fait un maj chiante.
 
WRInaute passionné
zeb a dit:
Quand j'ai installé mon premier phpBB (pour une copine) il m'a fallu deux mois pour dire "Jamais plu" :D depuis j'ai dev mon système (avec l'aide de la dite copine entre autre) et depuis j'ai jamais fait un maj chiante.
H.S. Ça existe en vrai pour de vrai des copinnes comme ça ? T’es tombé sur un miracle toi.

zeb a dit:
Et en minimisant les frais de conception. Vive le chômage cherchez l'erreur :D :wink:
Re‑H.S. Passe sur mon forum, et cherche un topic à propos du revenu universel (il est dans « Sciences / Économie et Gestion »). Tu devrais y trouver tout un tas de liens intéressants à lire (*) à ce propos. L’erreur est dans un système économique archaïque, inadapté au monde contemporain. La technologie et « l’ordre » sociale ne sont pas en phase. Le problème vient surtout de là.


(*) Passe les à ta copinne aussi. Vu le miracle qu’elle a l’air d’être, ça devrait l’intéresser :mrgreen:
 
WRInaute accro
hibou57 a dit:
Ça existe en vrai pour de vrai des copines comme ça ? T’es tombé sur un miracle toi.
Oui oui il y en a même si c'est très rare. Faut dire qu'avec les informateux trouver un point de partage genre conversation où on rigole a deux c'est pas simple. Mais avec elle ça passe top.
 
WRInaute passionné
zeb a dit:
Note bien que tu utiliserait un script perso t'aurais pas de souci avec les bots spammeurs.
Ensuite les classiques "posting.php" "viewtopic.php" gagnent a être renommés en masse (scripts, liens ...) sur le système utilisé pour esquiver la phase de recherche de cible et devenir incompatible avec les bots de spam.
En fait, je ne vais pas changer les liens, et je vais utiliser le forum comme un pot de miel :mrgreen: Ce qui ne sera pas grave, puique chaque nouvelle IP de robot est bloquée dans la journée au plus tard.

Sur un forum, les robots sont plus faciles qu’ailleurs à identifier sans ambiguïté, parce qu’ils créent des compte. Mais il peut être utile de bannir les IPs des robots pour tous les autres types de site, parce que je viens de vérifier que même sur ce qui ne ressemble pas du tout à un forum, les robots scannent souvent. Donc les bloquer pour plusieurs sites, peut faire économiser de la bande passante, en plus de les empêcher de fausser les statistiques sur les navigateur et les plateforme (parce que franchement, avoir des logs et des statistiques qui montrent des accès depuis IE5.5 sous Windows 3.1, c’est n’importe quoi).

Je vais donc constituer une liste des IPs, et plus tard, quand elle sera trop longue, je la réduirai en utilisant des masques. Je pense que des masques sur les 8 bits de poids faible devraient être raisonnables. Je donnerai un lien un jour prochain, parce que si je poste une liste ici, je ne pourrai pas la mettre à jour, à cause du délais limite pour l’édition des postes.

J’accompagne chaque IP d’un commentaire donnant la date de son ajout à la liste. C’est important, pour la raison donnée dans un précédent message (IPs changeant de main pour cause de pénurie IPv4).

En tous les cas et pour le moment, je ne peux que fortement recommander d’avoir au moins ceci, comme liste de blocage :

Code:
<Limit GET HEAD POST>

	order allow,deny
	allow from all

	deny from 213.186.96.0/19 # 2012-01-01

</Limit>
Ce 213.machin.truc est une vrai teigne. C’est même le seul qui a pour l’instant droit à ce privilège impardonnable, d’être bloqué en tant que plage, alors que tous le reste, est une liste de blocage par IPs individuelles.

Note : si vous utilisez une page 403 personnalisée, ce qui est recommandable pour au moins donner un message invitant à vous contacter, si par accident vous bloquez un internaute qui n’est pas un robot‑nuisible, alors placez la page 403 personnalisée dans un sous répertoire disposant d’un .htaccess spécifique, sinon elle sera elle‑même bloquée (oops). Dans ce répertoire, créez un .htaccess contenant simplement ceci :

Code:
<Limit GET HEAD POST>

	order allow,deny
	allow from all

</Limit>
Créez une page 403 personnalisée qui soit autant standalone que possible, pour ne pas gaspiller la bande passante. Évitez le CSS externe, et préférez un très court CSS interne; et bien sûr, évitez les images.
 
WRInaute passionné
Bilan après une semaine.

La liste dans le .htaccess s’est rapidement allongé, elle arrive à 650 entrées environ. Mais je peux maintenant dire que oui, c’était bien dut au robot.

Quand j’ai ouvert ce topic, je trouvais un nombre de d’affichages de page dans AdSense, qui représentait 1/10 des affichages annoncés dans BBClone.

Pour rappel, j’ai cru un temps que c’était dut à la grande proportion d’internaute arrivant via la recherche d’image, mais la mise en place d’une redirection faisant sortir de l’eframe de la recherche d’image de Google, n’a pas changé ce ratio. J’ai aussi cru à une activité plus grande que je ne le pensais chez les membres inscrits et connectés, mais certains détails l’excluait.

Depuis une semaine par contre, en bloquant systèmatiquement les IPs que j’identifie manuellement comme celles de robots spammeurs en tout genre (spam‑referer, spam par la signature, tentative de poster des postes‑spam, scan abusif des profils, etc), j’ai vu ce ratio notablement évoluer. Il est passé de 1/10 à 1/8 au pire et à 1/6 au mieux.

Ceci signifie que en bloquant les robots de cette manière, j’ai put constater que les robots spammeurs, à eux seuls, représentaient de 20% à 40% des accès, en gros et selon les jours.

La cause, était bien à voir du côté des robots.

Je posterai un autre bilan plus tard, à une date indéterminée, quand j’aurai mis en place le blocage par plages et non plus par IPs individuelles. Cela devrait être encore plus efficace, et je dirai ce qu’il en est alors des ratios une fois cette étape suivante franchie.

Je ne communique pas encore la liste de blocage que j’ai constitué, pour le moment, je le ferai un autre jour.

Un lien intéressant, si une IP vous parrait avoir un comportement suspect, sans que vous n’ayez pourtant de certitude : http://www.stopforumspam.com/ Ça peut être utile pour affiner l’idée que vous‑vous faites d’une IP, et savoir si oui ou non vous devez l’ajouter à votre liste de blocage.
 
WRInaute passionné
Un nouveau comportement vicieux que je viens de découvrir aujourd’hui.

Certains robots arrivent maintenant avec un referer qui peut les faire sembler naturel. Un referer correspondant à une recherche Google sur des expressions qui sont effectivement de celles avec lesquelles les visiteurs humains arrivent.

C’est pervers, et il faut alors être doublement vigilant dans l’inspection des logs.

Questions : comment déterminent‑ils les expressions sur lesquelles le forum ressort ? Est‑ce un changement de stratégie des robots suite au blocage de tous les autres les ayant précédé ?

Par mesure de sécurité, j’ai changé le nom du répertoire des statistiques, en me disant qu’il l’avait peut‑être trouvé par un referer que j’aurais accidentellement suivi depuis la page des statistiques (habituelle, je copie/colle l’URL). Mais ça ne correspond pas, parce que les statistiques que j’ai avec BBClone, ne donne que des mots, pas des expressions. Je suis aussi passé par la configuration site par site d’Opera, pour choisir de ne plus renvoyer de referer lorsque je clique un lien depuis un de mes propres sites, en fait, surtout éviter d’en renvoyer un en cliquant un lien depuis une page de statistiques.
 
WRInaute passionné
Le spam‑referer me semble souvent venir d’adresses en 173.234.*.* (pas seulement de ces adresses, mais le plus gros).
 
Discussions similaires
Haut