Des tonnes d'accès par jour à des pages inexistantes

WRInaute accro
Bonjour

Je constate depuis le 24 novembre que j'ai plusieurs bots (proximic, mediapartners-google etc.) qui tentent d'accéder à des URL qui n'existent pas sur mon site.

Des url sous cette forme :

monndd.ext/g456
monndd.ext/s607
monndd.ext/s3
monndd.ext/q603

etc.

J'ai même le bot mediapartners-google qui essaye d’accéder a ce type d'url également. J'ai vérifié l'ip pour ce bot et c’est bien une IP de google.
Sachant que sur mon site je n'ai même pas google adsense.

Exemple de ligne que je retrouve dans mes logs :

66.249.69.217 http://www.monsite.ext - [24/Nov/2016:10:49:28 +0100] "GET /s653 HTTP/1.1" 301 25 "-" "Mediapartners-Google"
ou encore
54.157.55.188 http://www.monsite.ext - [01/Dec/2016:07:38:11 +0100] "GET /k760 HTTP/1.1" 301 25 "-" "Mozilla/5.0 (compatible; proximic; +http://www.proximic.com/info/spider.php)"

J'a également ce type de ligne :

150.70.173.51 http://www.monsite.ext - [01/Dec/2016:12:54:50 +0100] "GET /?p=1470452881&subid=999&uid=7FB195643BB2CC91 HTTP/1.1" 301 25 "-" "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0)"
50.78.140.221 http://www.monsite.ext - [01/Dec/2016:12:53:19 +0100] "GET /?p=1470452881&subid=999&uid=7FB195643BB2CC91 HTTP/1.1" 301 25 "http://www.monsite.ext" "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/537.36 (KHTML like Gecko) Chrome/54.0.2840.99 Safari/537.36"

Maintenant j'ai fait en sorte de répondre avec une 404, mais je reste inquiet, ne sachant pas l'origine du problème et les conséquences que cela peut avoir à moyen ou long terme. Surtout que c'est apparu le 24 novembre et ça s’est aggravé depuis

Pour le moment j'ai l'impression que c'ets surtout les bots suivant qui posent problème :

mediapartners-google
proximic
maxpointinteractive

Quant au Googlebot aucun soucis il n'essaye pas d'accéder à ce type d'URL
 
WRInaute occasionnel
noren a dit:
mediapartners-google
proximic
maxpointinteractive

Quant au Googlebot aucun soucis il n'essaye pas d'accéder à ce type d'URL

Mediaparters-google= robot régie adsense Google 66.249.69.217=plage Google
Proximic= robot envoyé par partenaire pub adsense de Google = 54.157.55.188 = effectivement son adresse réelle
... à mon avis troisième idem

Tu est sur que ces adresses fantômes n'affichent pas quelque chose? (Y compris piratage du site).
Patrick
 
WRInaute accro
Qu'entends-tu par "afficher quelque chose" ?

Moi je vois juste dans mes logs les lignes que j'ai indiqué, par conséquent je n'ai aucun moyen de savoir la source exact. :/

J'ai au moins 2-3 visites de ce genre par minutes, c'est énorme...
Et si je comprend bien je peux même pas les bloquer, car si jamais j veux coller du adsense sur mon site, ça va poser problème exact ?
Le fait de rediriger ces muavaises URL vers une 404 est-ce que ca suffit? :?

maxpointinteractive c'est aussi un partenaire adsense ? Si c'est le cas le problème semble etre lié avec adsense, hors je n'ai pas encore adsense sur mon site.
 
WRInaute occasionnel
l'adresse exacte est inscrite dans le log:
IP 66.249.69.217 http://www.monsite.ext - [24/Nov/2016:10:49:28 +0100] "GET /s653 HTTP/1.1" 301 25 "-" "Mediapartners-Google"

adresse IP de provenance: 66.249.69.217
page visitée: http://www.monsite
Date
Par contre, il y a autre chose de louche (en relisant):
Get /s653 (une requète par GET vers la page s653 (genre index.php?XXX=s653)
avec comme résultat 301 (erreur), je présume
sur le port 25 ???? (=port de sortie pour les mails)
Pour le 301, je suis presque sûr. Beaucoup moins pour le numéro de port

En deuxième, mediapartners et proximix ne viennent sur une page QUE SI UNE PUB du réseau adsence est présente.

Faudra attendre d'autres avis plus éclairés

PS: 150.70.173.51 est une adresse ip de TREND Micro (une entreprise japonaise qui édite un antivirus OFFICIEL)
 
WRInaute accro
Comment dans ce cas retrouver la source du problème ?

Avec les adresses IP ca ne donnera rien vu que ca correspond bien à proximic et mediapartners-google.
Le port 25 correspond de base a SMTP. Ou peut etre telnet ? mais comment dois je interpréter ici ?

Sachant que les pages auxquels ils essayent d'accéder n'existent pas et elles sont toutes sous la meme forme http://www.monsite.ext/unelettreetunesuitedechiffre

Donc la actuellement je ne vois pas où chercher ?, et je redirige donc pour le moment ces accès en 404, est-ce suffisant ? quels sont les risques ?
 
WRInaute passionné
Les liens auxquels tentent d'accéder ces robots existent quelque part sur ton site (ou ailleurs). C'est parfois le cas avec des liens "construits" dans le code Javascript ou des formulaires (peut être ton cas avec un Get) que les robots peuvent mal interpréter : il serait donc judicieux de piéger l'origine de ces liens en testant le referrer (ce n'est pas forcément probant mais ça donne des pistes parfois) et inscrire tout cela dans un fichier texte plus lisible que des logs.

De mon côté, j'ai créé un petit script dans le code php qui écrit (plus ou moins bien... :roll: ) des règles de ré-écriture prédigérées comme :
Code:
RewriteRule ^definition-9221-mycorhize.html/RK=0/\.html	https://www.aquaportail.com/definition-9221-mycorhize.html [R=301,L]
Une erreur aujourd'hui : j'attends 3-4 jours (pour voir si l'erreur se répète ou se généralise ou reste anecdotique) pour éventuellement insérer une règle en 301 quelque part dans le site.

Autre cas aujourd'hui :
Code:
RewriteRule ^definition-2508-méristique\.html	https://www.aquaportail.com/definition-2508-meristique.html [R=301,L]
RewriteRule ^definition-3831-étiologie\.html	https://www.aquaportail.com/definition-3831-etiologie.html [R=301,L]
C'est un problème de caractères accentués dans le lien (et ça ne vient pas de "chez moi" : je vais créer une règle qui teste la présence de caractères accentués dans l'URI pour rediriger automatiquement vers la canonique).

Si tu sais manipuler ta plateforme, ce n'est pas bien compliqué de collectionner les mauvaises URI ($_SERVER['REQUEST_URI']) avec le Referrer : un script de quelques lignes suffit.

En revanche, "j'aime bien" ces mauvaises urls : ça me permet de relire des pages du site ... :mrgreen: et de les améliorer quand c'est possible (ce qui sera fait pour les 3 cas en exemple).
 
WRInaute accro
Ce qui me laisse a penser que ça ne vient pas directement de mon site c'est que je n'ai tout simplement aucun script google adsense sur le site en question, donc aucune raison d'avoir autant de mediaparners-google etc.

De plus quand je regarde mes logs je ne vois rien de suspect avec le googlebot, il ne visite a priori aucune page de ce genre.
Par contre d'après le google webmaster tools il m'indique qu'il explore plus de 600 voir parfois plus de 900 pages par jours, hors je n'ai pas plus de 200 pages sur mon site (si on ne compte pas les images).
Est-ce que dans le Google webmaster tools il prend en considération les images (et donc l'exploration de google-image) ? car dans ce cas ces valeurs pourraient se justifier etant donné que j'ai pas mal d'images dans chaque article.

De plus ca fait pas loin de 10 jours que mes 2 derniers articles ne s'indexent pas. Meme si je force l’exploration (et l'indexation), ils sont bien indexés puis quelques temps après ils sont à nouveau desindexés.

Est-il possible que google et autres bots en visitant un autre site pensent visiter mon site ? a cause d'une utilisation d'iframe ou autre technique utilisés par le spammeurs et pirates pour copier a la volé un site

J'ai vérifié également pour voir si les 100 derniers jours un fichier avait été modifié ou ajouté sur mon ftp et je n'ai rien vu de suspect.

Dans ce cas pour trouver le referer ca va pas etre simple
 
WRInaute accro
Bon j'ai vérifié et lorsque dans le GWT ca m'indique plus de 900 pages explorées, dans mes logs je ne vois pas plus de 250 pages explorées par googlebot (images comprises)...

J'y comprend rien.

J'ai fait un log qui récupère toutes les 404 ainsi que le referer et ca donne rien. Le referer est vide

De plus maintenant dans les logs ca n'indique plus 25 mais 570 :

Code:
64.20.243.132 www.monsite.ext - [05/Dec/2016:12:22:13 +0100] "GET /q679 HTTP/1.1" 404 570 "-" "MaxPointCrawler/Nutch-1.10 (maxpoint.crawler at maxpointinteractive dot com)

Des fois pendnat 2-3 minutes je n'ai aucune visite de ce genre et parfois j'en ai une dizaine d'affilé. ca dure maintenant depuis le 24 novembre !
 
WRInaute accro
J'ai aussi pas mal de visites avec ces ip

137.74.122.5
137.74.122.3
137.74.122.35
137.74.122.36

Avec des user-agent de type proximic également, ou comme ceci "Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36"

Comment savoir si ces ip sont douteuses ou appartiennent également a un organisme lié également a adsense etc.

le whois ip me donne ceci :

Organization Beyond Excellent Technology Ltd
ISP Beyond Excellent Technology Ltd
AS Number AS16276 OVH

PS : j'ai encore essayé de forcer l'indexation d'un de mes dernier articles via le GWT, j'ai bien vu que Googlebot est passé sur ma page, mais elle n'est toujours pas indexée...
 
WRInaute accro
Bon je viens également d'essayer de mettre mon site en maintenance (avec erreur 503) mais toujours le même soucis les bots proximic, mediapartners, maxpointinteractive et getindent continuent d'essayer d'aller sur ces URL inexistantes (biensur ca leur renvoi une erreur 503). Ce n’est jamais les mêmes url.

Il y a vraiment de très fortes chances que ce probleme vient de l'extérieur et non en interne. Il doit y avoir un p*tain de site qui doit renvoyer ces bots chez moi, je ne vois pas d'autres explications pour le moment. Mais comment l'identifier!

Arf ca devient catastrophique, googlebot commence a s'y mettre :

Code:
66.249.69.43 www.monsite.ext - [05/Dec/2016:13:52:57 +0100] "GET /s328 HTTP/1.1" 404 570 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)"

:? :(

Google va donc avoir sur mon site des milliers d'erreurs 404, mon site va etre extrêmement polluer et je ne vois absolument pas d'ou vient la source du probleme
 
WRInaute accro
Je viens également d'utiliser l'outil d'audit seo sur myrankingmetrics.com pour voir si il detectait des URL non désirées, et RAS
 
WRInaute accro
Alors actuellement pas mal de sites chez OVH sont hors service et on a une belle page 503 (site en maintenance) générée directement par OVH. On ne peut même plus accéder a son FTP non plus.

Pourtant je remarque toujours dans mes logs des tentatives d'accès de la part de mediapartners-google etc. à des pages inexistantes sur mon site.
Si le problème venait de mon site et de mon script (voir même d'un hack interne), le site étant actuellement hors service, le problème aurait du également temporairement s’arrêter, non ?

Ca confirme que le soucis vient bien de l’extérieur ? si c'est bien le cas, maintenant, comment trouver la source du problème ?
 
WRInaute accro
Non je crois que tout est lié

je suis tombé la dessus dans mes logs :

Code:
172.243.110.87 www.monsite.ext - [05/Dec/2016:20:05:18 +0100] "GET /?p=1470452881&subid=524&uid=38848A0E9FC84583 HTTP/1.1" 404 570 "http://209.222.109.19/api/getlinks.php?click=XXXXXXX&type=v&spoof_domain=www.monsite.ext&land_ip=148.251.154.205&group=G1&subid=XXX&uid=XXXXXXXXXXX" "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; Touch; rv:11.0) like Gecko"

Attaque spoof domain, ça pourrait coïncider ? et si oui comment confirmer que c’est bien ça (quel test faire) ? a quoi ça correspond exactement ? et ensuite comment le stopper ?

Ca pourrai expliquer que mes derniers articles ne s'indexe pas, que dans le WGt je vois un grand nombre de pages explorées alors que je ne constate rien dans mes logs, et qu'il y ai ses fausses URL, non ?

DNS Spoofing », « DNS Cache Poisonning » ?
 
WRInaute occasionnel
noren a dit:
Attaque spoof domain, ça pourrait coïncider ? et si oui comment confirmer que c’est bien ça (quel test faire) ? a quoi ça correspond exactement ? et ensuite comment le stopper ?

Ca pourrai expliquer que mes derniers articles ne s'indexe pas, que dans le WGt je vois un grand nombre de pages explorées alors que je ne constate rien dans mes logs, et qu'il y ai ses fausses URL, non ?

DNS Spoofing », « DNS Cache Poisonning » ?[/quote]

Bien grand mots, mais avant, faut essayer de comprendre. En premier, si tu as des visites dans les log SERVEUR, c'est une visite sur TON serveur (et pas sur un autre qui aurait détourné le site sur un autre).
En MP, t'envoie l'adresse IP du site, vérifie si c'est bien celle de ton hébergement :wink:
En deuxième, analyser les fichiers log serveurs est toujours difficile. Je peux modifier mon petits outils de tests "anti-crapu*lles" pour ne récupérer que les réels accès sur tes pages (hors blocage des copieurs, robots, ...).
En troisième: la question se pose, est ce que le serveur a été piraté?
 
WRInaute accro
Bon j'ai essayé la protection DNSSEC (OVH le propose); Il s'agit d'une protection contre le cache poisoning et le dns spoofing, mais a priori ca ne change rien, j'ai toujours ces visites des bots (proximic, mediapartners-google etc.)

L'adresse IP que tu m'as envoyé en MP correspond bien à celle de mon serveur.

De mon côté :

- j'ai fait un scan de mon site avec myrankingmetrics.com, et cet outil ne m'a détecté aucune mauvaise URL
- J'ai utilisé pas mal d'outil comme virustotal et de 2-3 autres outils idem. ils n'ont rien détecté.
- Quand je regarde le code source de mes pages html générées je ne vois rien de suspect non plus. J'ai également vérifié les derniers fichiers ajoutés et modifiés de ces 100 derniers jours et idem rien de suspect.
- J'ai vérifié les logs FTP fournis par OVh sur les 4 derniers mois et rien de suspect non plus
- J'ai vérifié mes logs persos qui sont créés en cas de tentatives d'injection et d'attaques de force brute, RAS
- De plus si c’était mon code qui créait tout seul ces mauvaises url (a cause de lignes mal codées en JS ou je ne sais quoi) il n'y aurait aucune raison d'avoir des bots adsense étant donné que je ne met aucun script adsense sur mon site.

Ce que je comprend pas, c'est qu'hier pendant plus d'une heure pas mal de sites chez OVH étaient hors service et le mien compris. meme le FTP était inaccessible et pourtant les visites des proximic, mediapartners etc. ont continué (ca créait des erreur 503, mais il essayaient tout de meme d'accéder à ces pages inexistantes).
Si ca venait directement de mon site et d'une faille exploitée, lorsque les serveurs d'OVH étaient HS les visites anormales auraient du stoppées non ?

Tout porte à croire que ces visites sont provoquées par un élément externe. Est-il possible qu'un site extérieur (ou je ne sais quoi : via telnet etc.) renvoi les bots de adsense etc. sur mon site ?

Ce qui inquiète également c'est ceci :

Code:
172.243.110.87 www.monsite.ext - [05/Dec/2016:20:05:18 +0100] "GET /?p=1470452881&subid=524&uid=38848A0E9FC84583 HTTP/1.1" 404 570 "http://209.222.109.19/api/getlinks.php?click=XXXXXXX&type=v&spoof_domain=www.monsite.ext&land_ip=148.251.154.205&group=G1&subid=XXX&uid=XXXXXXXXXXX" "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; Touch; rv:11.0) like Gecko"

Cette histoire de spoof domain semble être une réelle piste, mais si le DNSSEC ne change rien, ce n'est pas logique non plus.
Comment expliquer que dans le GWT, ca m'indique que Google à explorer plus de 900 pages, alors que dans mes logs d'OVH il a visité tout juste une centaine de page ? (Prend t-il en compte les visites de mediapartners-google? ca m'étonnerait vu que c'est adsense). C'est comme si google exploraient des pages quelquepart en pensant qu'il s'agit de mon site.

Voilà d'autres lignes suspectes :

Code:
66.249.69.6 www.gameophage.com - [07/Dec/2016:05:25:00 +0100] "GET /.well-known/apple-app-site-association HTTP/1.1" 301 223 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)"
137.74.122.36 www.gameophage.com - [07/Dec/2016:05:25:01 +0100] "GET /.well-known/apple-app-site-association HTTP/1.1" 404 570 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)"

On voit que le google bot essaye d'accéder a cette page .well-known/apple-app-site-association 'rien d'anormal il me semble c'est un soucis avec IOS)
Mais par contre juste après c'est cette ip 137.74.122.36 qui se fait passé pour le googlebot et qui essaye d'accéder au meme fichier

Autre chose de bizarre, quand j'essaye de bloquer les ip suivantes via le .htaccess ca ne marche pas, elles passent toujours :

Code:
order allow,deny
deny from 137.74.122.3
deny from 137.74.122.35
deny from 137.74.122.36
deny from 137.74.122.5
deny from 137.74.120.4
deny from 137.74.120.5
deny from 137.74.120.37
deny from 137.74.120.35
deny from 137.74.120.36
allow from all

Donc pour l'instant j'en suis toujours au meme point
 
WRInaute occasionnel
Te rassure, jamais eut ce type de problème sur mes sites :wink: Pourtant, sur tous les membres de WRI, suis probablement le plus en avance sur la suppression des bricolages et de bricoleurs.
Personnellement, suis pas un spécialiste de l'étude des fichiers logs: erreur et accès (en plus, le fichier reprend tous les fichiers intégrés comme les images: difficile à réellement analyser).

On va découper le problème.
1. Je suppose que les erreurs 404 (pages inexistantes) sont renvoyées vers une page spécifique. Je sais pas ce que tu utilise comme système de stats (Google analytic, Xiti, ...). Met le code du système de stat sur cette page. Si ce n'est pas le cas, crée une page erreur-404.php (en no-index, no follow pour les moteurs) et en .htaccess renvoie ces erreurs avec la commande
Ca va permettre deux choses: voire les erreurs 404 (page qui n'existe pas) et les accès (selon le script de stat utilisé on peut trouvé "parfois" les pages de références).
2. bloquer les bricolages.
Quand je dis que je suis très en avance pour la protection de sites (même trop parfois :oops: ), il y a des techniques de programmation qui permettent certaines choses (y compris virer les bricolages.
. Pages complètement statiques sans paramètres, a insérer en tout début:
<?php
$adresse_reel="/adresse de la page";
// exemple /contact.php
$page=$_SERVER['REQUEST_URI'];
if ($page<>$adresse_reel)
{
//header('Location: http://www.exemple.com/contact.php');
// on interdit l'accès
header("HTTP/1.1 403 Forbidden");
//include ('includes/tests-ip.php');
exit();
}
//include ('includes/tests-ip.php');
?>
Dès qu'il y a paramètre -> erreur 403 (forbiden)
ou (plus dangereux mais plus friendly)

<?php
//include ('../tests-ip.php');
$adresse_reel="/contact.php";
$page=$_SERVER['REQUEST_URI'];
if ($page<>$adresse_reel)
{
header('Status: 301 Moved Permanently', false, 301);
header('Location: /contact.php');
exit();
}
?>
Cette méthode renvoie en erreur 301 (redirection permanents) vers la page réelle. Te conseille (si c'est possible) de mettre ce code en début de quelques pages.
Remarque les //include ('../tests-ip.php'); (en commentaires donc pas exécutés). Ce script est très violent dans mon cas, pas trop le temps de le réduire dans ton cas puisqu'il reprend les visituers (ip, host, ...), bloque les parasites, ...
Je regarderais si c'est nécessaire pour qu'il ne reprenne en MySQL que les visiteurs (réels ou robots).
 
WRInaute accro
J'ai ajouté le script Analytics sur ma page 404 mais pour le moment toutes les visites sur les pages en 404 ne s'ajoutent pas dans GG analytics. Analutics ne prend pas en compte les bots dans les stats, et c'est surtout les bots (mediapartners etc.) qui vont sur les pages 404 suspectes.
J'en ai choppé un mais en referer ca m'indique "direct"

Résultat ca n'abouti à rien :/

ce que tu propose ensuite, c’est de détecter sur mes pages, si on essaye d'y accéder avec des paramètres en get non désiré et si c’est le cas de renvoyer un 403 puis de récupérer l'IP exact ?

Mais la pareille, l'ip que je récupère c'est celle des bots, et a priori se sont des IP officielles de ces bots. Donc je ne pourrais rien tirer des IP. De plus le referer est vide.
Actuellement je me crée déjà un log : lorsqu'on essaye d'accéder a une page inexistante, j'affiche ma 404 et j'enregistre dans le log le referer la page cible et l'IP. Mais comme indiqué l'IP et le referer ne sont pas exploitables :(
 
WRInaute accro
C’est bien plus grave.

Googlebot passe de moins en moins sur mon site. Il visite pas plus d'une 50aine de pages (images comprises et d’après mes logs d'OVH) dans la journée alors qu'il en visitait au moins 10 fois plus.
Soit ses explorations partent ailleurs (chez le pirate) soit GG a détecté un soucis et explore beaucoup moins mon site.

P*tain j'ai vraiment besoin d'aide là pour identifier cette merde.
 
WRInaute occasionnel
Je crois que si cela m'arrivait je ferais un test pour en savoir plus.
Je créérais une page qui n'existe pas, mais qui est régulièrement appelé par les robots, une page avec un contenu bidon et sans aucun backlink, et je regarderais très finement les logs de cette page, en cherchant le referrer.
 
WRInaute accro
Les pages appelées par les robots sont constamment différentes. Même si j'en crée une ils ne repasseront jamais dessus. :/
 
WRInaute occasionnel
noren a dit:
ce que tu propose ensuite, c’est de détecter sur mes pages, si on essaye d'y accéder avec des paramètres en get non désiré et si c’est le cas de renvoyer un 403 puis de récupérer l'IP exact ?

Mais la pareille, l'ip que je récupère c'est celle des bots, et a priori se sont des IP officielles de ces bots. Donc je ne pourrais rien tirer des IP. De plus le referer est vide.
Actuellement je me crée déjà un log : lorsqu'on essaye d'accéder a une page inexistante, j'affiche ma 404 et j'enregistre dans le log le referer la page cible et l'IP.
Noren tu sais que j'ai nettement mieux pour bloquer les robots, copieurs automatiques, ... et autres bricoleurs. Malheureusement, ce script PHP - MySQL est un peu lourd et risquerait de bloquer des visiteurs standards (en plus qu'il discosie les réels robots (Google, msn, Yahoo et quelques mineurs) des autres. Plus de la moitié des visiteurs d'un site belge ou français viennent de Russie, Ukraine, Chine, Taiwan ...
Réduire le développement prend du temps (et c'était pas prévu dans mon planning ni avec mes problèmes de santé) :wink:
Laisse moi quelque jours, c'est beaucoup de travail: surtout que dans ton cas je ne dois pas discossier les visiteurs des robots. Pas contre, pas de javascript -> tout ce qui lit le code est repris dans une table. Depuis 2003, j'ai la réputation d'être un webmaster un peu fou (me souvient d'un post qui m'était destiné: avec tes bricolages et tests, Google finira par t'en coller une).

Je suis pas sûr que ces parasitages réduisent les visitent des robots de Google. Par principe, un peu comme Zeb, je bloque tout ce qui bouffe ma bande passante mais mes bricolages sont toujours un peu apprenti sorcier.
Par curiosité, le site descend en visiteurs ou non?
 
WRInaute accro
c'est sympas, malheureusement j'ai bien peur que la seule chose que l'on bloquera c'est des IP de mediapartenrs-google, proximic etc., en gros des IP valides que je ne souhaite pas bloquer. Je compte un jour ajouter adsense, mieux vaut que les bots ce jour la puisse passer sur mon site.

J'ai regardé mes logs en long en large et en travers j'ai essayé de bloquer toutes les IP douteuses et ca n'a rien changé.

Il y a même des Ip que j'ai essayé de bloqué via le .htaccess et qui passent quand même 8O

Honnêtement je ne suis pas forcément un expert, mais je dois avouer que le problème actuel me dépasse réellement.

La pour le moment j'ai interdit l'exploration via le robots.txt a quelques robots de façon temporaire en attendant de trouver une solution. Mais ca ne suffit pas.

Ca fait plus d'une semaine que je suis dessus a temps plein et je n'aboutis a aucun résultat concluant

Dans mes logs créés dans le cas d'une 404 j’obtiens des tonnes de lignes de ce genre ;

Code:
2016-12-08 22:44:03 : http://www.monsite.ext/s582
IP : 108.59.8.14 REFERER : 

2016-12-08 22:48:05 : http://www.monsite.ext/k740
IP : 52.3.250.2 REFERER : 

2016-12-08 22:52:56 : http://www.monsite.ext/f330
IP : 52.71.155.178 REFERER : 

2016-12-08 22:56:43 : http://www.monsite.ext/s866
IP : 75.98.9.249 REFERER : 

2016-12-08 23:02:37 : http://www.monsite.ext/?p=xxxx&subid=xxx&uid=xxxxxxxx
IP : 50.204.187.62 REFERER : http://www.monsite.ext

2016-12-08 23:02:39 : http://www.monsite.ext/k129
IP : 54.191.54.79 REFERER : 

2016-12-08 23:03:36 : http://www.monsite.ext/f279
IP : 54.213.233.41 REFERER :

2016-12-08 23:06:02 : http://www.monsite.ext/s480
IP : 206.16.134.24 REFERER :

2016-12-08 23:07:34 : http://www.monsite.ext/s744
IP : 198.148.15.20 REFERER : 

2016-12-08 23:17:47 : http://www.monsite.ext/k737
IP : 52.53.165.75 REFERER : 

2016-12-08 23:26:41 : http://www.monsite.ext/s545
IP : 54.149.102.224 REFERER :

Et encore j'ai bloqué temporairement mediapartners, proximic etc.

C'est loin d'être le pire j'ai également des trucs comme ça :

Dans les lignes suivantes on voit que L'utilisateur 142.169.82.109 a fait une recherche sur https://www.google.ca/ pour atterrir sur la page http://www.monsite.ext/pageA et pourtant les images, css et js incluses dans cette page sont appelées par 137.74.122.XX

Ces adresses IP 137.74.122.XX reviennent très souvent et les bloquer via le .htaccess ne fonctionne pas.

Code:
142.169.82.109 www.monsite.ext - [08/Dec/2016:17:45:50 +0100] "GET /pageA HTTP/1.1" 200 8592 "https://www.google.ca/" "Mozilla/5.0 (Linux; Android 6.0.1; SM-G930W8 Build/MMB29K) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.85 Mobile Safari/537.36"

137.74.122.36 www.monsite.ext - [08/Dec/2016:17:45:50 +0100] "GET /statique/bootstrap/css/bootstrap.min.css HTTP/1.1" 200 18717 "http://www.monsite.ext/pageA" "Mozilla/5.0 (Linux; Android 6.0.1; SM-G930W8 Build/MMB29K) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.85 Mobile Safari/537.36"

137.74.122.35 www.monsite.ext - [08/Dec/2016:17:45:50 +0100] "GET /statique/css/style.css HTTP/1.1" 200 2874 "http://www.monsite.ext/pageA" "Mozilla/5.0 (Linux; Android 6.0.1; SM-G930W8 Build/MMB29K) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.85 Mobile Safari/537.36" 

etc.

Normalement les éléments de la page : images, css etc. devraient également être appelés par 142.169.82.109 :roll:

Oui le site descend un peu en visiteur. Mais pour le moment il en a pas beaucoup non plus.
 
WRInaute occasionnel
noren a dit:
Les pages appelées par les robots sont constamment différentes. Même si j'en crée une ils ne repasseront jamais dessus. :/

Voilà une info intéressante.
Le robot n'est donc pas complètement abruti. S'il a vu qu'une page n'existait pas, il n'essaie pas d'y revenir.

Je n'ai pas de solution pour ton problème, mais je te conseille pourtant de ne pas y consacrer trop de temps. Je suis moi aussi chez OVH, et je regarde de temps en temps les rapports d'erreurs dans les logs, et chaque fois, j'y vois des trucs que je comprend pas.

Lundi, j'ai eu un max d'erreur FastCGI. Tous les jours, j'ai une poignée de trucs genre :

Code:
[Thu Dec 08 17:20:30 2016] [error] [client 207.46.13.181] [host www.monsite.com] (36)File name too long: access to /actu/unea\xc3\x83\xc6\x92\xc3\x86\xe2\x80\x99\xc3\x83\xe2\x80\xa0\xc3\xa2\xe2\x82\xac\xe2\x84\xa2\xc3\x83\xc6\x92\xc3\xa2\xe2\x82\xac\xc2\xa0\xc3\x83\xc2\xa2\xc3\xa2\xe2\x80\x9a\xc2\xac\xc3\xa2\xe2\x80\x9e\xc2\xa2\xc3\x83\xc6\x92\xc3\x86\xe2\x80\x99\xc3\x83\xc2\xa2\xc3\xa2\xe2\x80\x9a\xc2\xac\xc3\x85\xc2\xa1\xc3\x83\xc6\x92\xc3\xa2\xe2\x82\xac\xc5\xa1\xc3\x83\xe2\x80\x9a\xc3\x82\xc2\xa2\xc3\x83\xc6\x92\xc3\x86\xe2\x80\x99\xc3\x83\xe2\x80\xa0\xc3\xa2\xe2\x82\xac\xe2\x84\xa2\xc3\x83\xc6\x92\xc3\xa2\xe2\x82\xac\xc5\xa1\xc3\x83\xe2\x80\x9a\xc3\x82\xc2\xa2\xc3\x83\xc6\x92\xc3\x86\xe2\x80\x99\xc3\x83\xe2\x80\x9a\xc3\x82\xc2\xa2\xc3\x83\xc6\x92\xc3\x82\xc2\xa2\xc3\x83\xc2\xa2\xc3\xa2\xe2\x80\x9a\xc2\xac\xc3\x85\xc2\xa1\xc3\x83\xe2\x80\x9a\xc3\x82\xc2\xac\xc3\x83\xc6\x92\xc3\xa2\xe2\x82\xac\xc2\xa6\xc3\x83\xe2\x80\x9a\xc3\x82\xc2\xa1\xc3\x83\xc6\x92\xc3\x86\xe2\x80\x99\xc3\x83\xc2\xa2\xc3\xa2\xe2\x80\x9a\xc2\xac\xc3\x85\xc2\xa1\xc3\x83\xc6\x92\xc3\xa2\xe2\x82\xac\xc5\xa1\xc3\x83\xe2\x80\x9a\xc3\x82\xc2\xac\xc3\x83\xc6\x92\xc3\x86\xe2\x80\x99\xc3\x83\xe2\x80\xa0\xc3\xa2\xe2\x82\xac\xe2\x84\xa2\xc3\x83\xc6\x92\xc3\xa2\xe2\x82\xac\xc5\xa1\xc3\x83\xe2\x80\x9a\xc3\x82\xc2\xa2\xc3\x83\xc6\x92\xc3\x86\xe2\x80\x99\xc3\x83\xe2\x80\x9a\xc3\x82\xc2\xa2\xc3\x83\xc6\x92\xc3\x82\xc2\xa2\xc3\x83\xc2\xa2\xc3\xa2\xe2\x82\xac\xc5\xa1\xc3\x82\xc2\xac\xc3\x83\xe2\x80\xa6\xc3\x82\xc2\xa1\xc3\x83\xc6\x92\xc3\xa2\xe2\x82\xac\xc5\xa1\xc3\x83\xe2\x80\x9a\xc3\x82\xc2\xac\xc3\x83\xc6\x92\xc3\x86\xe2\x80\x99\xc3\x83\xc2\xa2\xc3\xa2\xe2\x80\x9a\xc2\xac\xc3\x85\xc2\xa1\xc3\x83\xc6\x92\xc3\xa2\xe2\x82\xac\xc5\xa1\xc3\x83\xe2\x80\x9a\xc3\x82\xc2\xb9ctu.php failed

Je veux consacrer mon temps à ce qui me rapporte, alors je regarde le nombre de visteurs uniques, le nombre de gens qui cliquent sur les pages, et s'il se passe des choses étranges sur mon serveur, il s'en passe aussi dans les terrains vagues et les caves des HLM.
 
WRInaute accro
Je peux difficilement fermer les yeux sur ce qui se passe. D'autant plus que le problème semble empirer chaque jour.
Ca semble également impacter le taux de crawl de Googlebot, l'indexation de mes pages etc.
De plus si un jour je compte ajouter adsense sur mes pages, je ne voudrais pas être blacklisté parce que les bots d'adsense détectes un comportement anormal sur mon site.

Je ne suis pas du genre a m'inquiéter pour quelques visites ou erreurs inexpliquées que je constate dans mes logs. La le problème semble bien plus grave

Vu mes logs j'ai de bonnes raisons de m'inquiéter, et j'ai rarement pris un problème autant au sérieux.

lorsque je force l'exploration de mes pages via le GWT (Google search console) , je vois bien dans mes logs l'Ip de google puis dès qu'il charge mes images, css et js c'est une ip du type 137.74.122.X qui prend le relais et se fait passé pour google dans le user-agent

idem lorsque quelqu'un fait une recherche via un google autre que google.fr par exemple
 
WRInaute occasionnel
Suite à cette discussion, je viens de regarder dans le détail mes 404, et j'y ai trouvé les anomalies suivantes. Tous des trucs qui n'ont jamais existé sur mon site.

Code:
/browserconfig.xml
/wp-login.php
/apple-app-site-association
/.well-known/assetlinks.json
/.well-known/dnt-policy.txt
/actu/2015/includes/commands.php/ 
/actu/2015/main.php
/actu/2015/login.php
/actu/2015/css/table_view.css
/actu/2015/css/ 
/actu/2015/gate.php/
/actu/2015/statistics.php
/actu/2015/img/banners
/actu/2015/tmp/logs/
/actu/2015/app/
/actu/2015/lib/
/actu/2015/tmp
/login.php
/actu/2015/back.css 
/actu/login.php
/panel/login.php
/adform/IFrameManager.html
/actu/2015/graphics/banner.png 
/actu/2015/login.php?op=login
/actu/2015/style.css
/xmlrpc.php
/google_matched_content_whitelist.txt 
/license.php
/this.options%5bthis.selectedindex%5d.value%3b'%3e
/actu/wp-login.php
/%3Cbr

Tout ça, c'est de ce matin. J'ai eu 124 erreurs 404 entre minuit et midi. Celui qui revient le plus est l'appel à la page d'admin de WP, parce qu'il doit y avoir des robots qui croient que j'utilise WP, même si ce n'est pas le cas.

Je pourrais assurément passer mon week-end à analyser tout ça, mais dans quel but ?
Patrick Lejeune a proposé de remplacer les 404 par des 403, mais est-ce que cela changerait quelque chose (en plus d'être dangereux) ? Si le robot continue à passer après avoir essuyé tant de 404, je ne crois pas que des 403 puisse le faire fuir.
 
WRInaute accro
essaye de coller ces deux lignes dans ton .htaccess

Code:
RewriteCond %{REQUEST_URI} ^/([a-z])([0-9])([0-9])([0-9])$
RewriteRule ^([a-z])([0-9])([0-9])([0-9])$		http://www.gratuit.com  [R=301,L]

Ca va dégager tous les robots qui viennent tester une url qui commence par une lettre suivie de 3 chiffres
 
WRInaute occasionnel
Oui, cela peut etre une bonne idée de rediriger le mauvais traffic vers l'extérieur.
En attendant, je vous livre une perle de mes logs :

Code:
User Agent: WebFuck V2.1 T0PHackTeam www.t0p.xyz
 
WRInaute accro
@elji : il y a beaucoup de ligne dans les logs qui sont "normales" et qui touchent la plupart des sites :

Code:
/wp-login.php 
/apple-app-site-association
/.well-known/assetlinks.json
/.well-known/dnt-policy.txt

Mon soucis c'est bel et bien des lignes qui non rien de normal d'autant plus quand les bots liés a adsense tentent a de nombreuses reprises par jour alors que je n'ai aps adsense non plus. Ou de slignes qui sont plus que suspectes.

@indigene : pas persuadé que ca soit une bonne solution d'envoyer balader sur un autre site mediapartenrs-google

La seule chose que je dois faire c'est trouvé l'origine du problème et comment le bloquer, sinon le reste sera juste du bricolage. D'autant plus que je compte bien ajouter un jour des pubs adsense.

Googlebot n'explore quasiment plus mon site (une dizaine de page par jour maxi) hormis mes images,
 
WRInaute accro
Crois-tu réellement qu'il s'agit de google mediapartners ?
C'est sans doute de l'ip spoofing
Donc envoyer les hackers dans la stratosphère n'est pas idiot. D'autant plus que tu ne testes ni l'ip, ni le user agent, mais simplement la page accédée qui n'a rien de réel
 
WRInaute accro
J'ai installé DNSSEC qui normalement empêche l'IP spoofing (ou cache poisoning)
Je ne sais pas si il est possible d'avoir dans ses logs des IP de Google mais qui n'en sont pas vraiment. Dans le doute ca me parait trop risqué de l'envoyer balader.

Et comment expliquer également que googlebot n'explore quasiment plus mes pages d'articles.
 
WRInaute occasionnel
Oui, j'ai bien vu cela. La plupart de mes 404 sont pour des pages qui pourraient exister, je les vois alors comme des tentatives de hack. Je suis juste surpris d'en avoir tant, tous les jours. J'imagine que je pourrais créer des répertoires
/blog
/admin
/wp
/js
/common
avec des 410 pour diminuer mes 404... Je ne sais pas si ce serait une bonne idée.

A part cela, noren, as-tu des ennemis ?
Ce qui me choque, est que ces robots inventent toujours de nouvelles URLs. Moi, c'est toujours les mêmes qui reviennent. Il faut qu'il y ait un script quelque part, pour que le robot aille toujours inventer de nouvelles URLs. Un javascript ou un URL-rewriting quelconque.
 
WRInaute accro
Les ennemis se sont tous les concurrents, donc oui dans mon secteur il y en a un paquet
Oui les bots continuent toujours d'inventer ces URL. Comme indiqué meme si ca venait de mon côté (javascript mal codé, un script qui pose soucis ...) je ne devrait pas avoir de bots liés a adsense car je n'ai ajouté nulle par le script pour ajouter des pubs adsense.

J'ai uploadé tous mon site et ma BDD, fait des recherche pour voir si un script ou du code avait été ajouté et il y a quedalle
Tout porte a croire que ce pb vient de l'extérieur.
 
WRInaute accro
je ne suis pas expert en réseau mais à mon avis :

- ce n'est pas toi qui est la cible d'une attaque
- celui qui utilise ton site en envoyant des requêtes avec de l'ip spoofing vise en fait google mediapartners car la réponse (404 en l'occurence) sera retournée à google mediapartners puisque c'est son ip qui est à l'origine de la requête.
- indirectement ça peut te causer des ennuis car google mediapartners pense que tu le bombardes de requêtes avec toutes les réponses 404 qu'il reçoit de chez toi

Donc selon moi il ne faut pas répondre 404 ou 503 mais dégager ces requêtes vers autre chose par une 301. C'est le site destinataire qui sera alors pris en compte par google mediapartners et tu as moins de chances d'être inquiété

Mais je suis tellement une brelle en réseau qu'un spécialiste pourrait certainement démonter mon raisonnement très facilement. Enfin moi ça me parait logique que ça fonctionne de la sorte.

C'est clair en tous cas qu'il ne faut pas bloquer les ip ni le user agent car ces ip réelles ou ces user agents n'y sont pour rien. Et ça ne me parait pas normal non plus de répondre 404 à des ip qui n'ont rien demandé. 301 me semble plus approprié même si ce n'est pas la solution. Il faudrait pouvoir remonter à l'ip d'origine mais ça je ne sais pas comment faire à moins d'être OVH et d'avoir accès à plus de données sur les serveurs. Toi tu reçois une requête en provenance d'une ip et tu ne peux que subir. S'il faut un filtre c'est en amont.
 
WRInaute accro
je dois avouer que je ne sais réellement pas quelle solution appliquée : 301, 404 ou si j'envoi baladé lorsqu'ils acédent a des pages inexistantes

Je viens de voir que j'ai maintenant ce type d'accès dans mes logs :

Code:
64.125.188.25 www.monsite.ext - [12/Dec/2016:02:50:33 +0100] "GET /pixel.php?domain=www.monsite.ext&idx=1714&method=pageVisit&message=undefined HTTP/1.1" 404 828 "-" "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.1) Gecko/2008070208 Firefox/3.0.1"

C'est pas net tout ça.
 
WRInaute accro
Je comprend ton désarroi. C'est un peu comme quand on reçoit des lettres des impôts et des PV de toutes parts. C'est toujours embêtant de s'en débarasser
 
WRInaute occasionnel
elji a dit:
/blog
/admin
/wp
/js
/common
Je pourais t'en présenter d'autres: des pages d'administration de CMS Sans utiliser de CMS, j'ai tous les jours ce genres de visiteurs. Même mieux, un page (par example) qui parle de oscommerce.php recoit des tentatives d'hacking sue le CMS OScommerce
 
WRInaute occasionnel
patrick_lejeune a dit:
elji a dit:
/blog
/admin
/wp
/js
/common
Je pourais t'en présenter d'autres: des pages d'administration de CMS Sans utiliser de CMS, j'ai tous les jours ce genres de visiteurs. Même mieux, un page (par example) qui parle de oscommerce.php recoit des tentatives d'hacking sue le CMS OScommerce

Oui, on est bien d'accord. Mais la conséquence est que je surveille très mal mes 404. Je voudrais faire du bon travail, mais quand je regarde, les vrais 404 représentent moins de 0,5% de tous les 404 que je reçois. Au lieu d'avoir un fichier d'erreurs qui ne fait que quelques lignes, j'ai devant les yeux un truc énorme, alors il faut du temps...
 
Discussions similaires
N
Réponses
3
Affichages
2K
ninonsclcme
N
Haut