Des tonnes d'accès par jour à des pages inexistantes

Consultez la formation sur les stratégies de liens de WebRankInfo / Ranking Metrics

noren
WRInaute accro
WRInaute accro
 
Messages: 2847
Enregistré le: 8 Avr 2011

Des tonnes d'accès par jour à des pages inexistantes

Message le Jeu Déc 01, 2016 14:21

Bonjour

Je constate depuis le 24 novembre que j'ai plusieurs bots (proximic, mediapartners-google etc.) qui tentent d'accéder à des URL qui n'existent pas sur mon site.

Des url sous cette forme :

monndd.ext/g456
monndd.ext/s607
monndd.ext/s3
monndd.ext/q603

etc.

J'ai même le bot mediapartners-google qui essaye d’accéder a ce type d'url également. J'ai vérifié l'ip pour ce bot et c’est bien une IP de google.
Sachant que sur mon site je n'ai même pas google adsense.

Exemple de ligne que je retrouve dans mes logs :

66.249.69.217 http://www.monsite.ext - [24/Nov/2016:10:49:28 +0100] "GET /s653 HTTP/1.1" 301 25 "-" "Mediapartners-Google"
ou encore
54.157.55.188 http://www.monsite.ext - [01/Dec/2016:07:38:11 +0100] "GET /k760 HTTP/1.1" 301 25 "-" "Mozilla/5.0 (compatible; proximic; +http://www.proximic.com/info/spider.php)"

J'a également ce type de ligne :

150.70.173.51 http://www.monsite.ext - [01/Dec/2016:12:54:50 +0100] "GET /?p=1470452881&subid=999&uid=7FB195643BB2CC91 HTTP/1.1" 301 25 "-" "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0)"
50.78.140.221 http://www.monsite.ext - [01/Dec/2016:12:53:19 +0100] "GET /?p=1470452881&subid=999&uid=7FB195643BB2CC91 HTTP/1.1" 301 25 "http://www.monsite.ext" "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/537.36 (KHTML like Gecko) Chrome/54.0.2840.99 Safari/537.36"

Maintenant j'ai fait en sorte de répondre avec une 404, mais je reste inquiet, ne sachant pas l'origine du problème et les conséquences que cela peut avoir à moyen ou long terme. Surtout que c'est apparu le 24 novembre et ça s’est aggravé depuis

Pour le moment j'ai l'impression que c'ets surtout les bots suivant qui posent problème :

mediapartners-google
proximic
maxpointinteractive

Quant au Googlebot aucun soucis il n'essaye pas d'accéder à ce type d'URL

patrick_lejeune
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 341
Enregistré le: 1 Avr 2016

Re: Des tonnes d'accès par jour à des pages inexistantes

Message le Jeu Déc 01, 2016 16:30

noren a écrit:mediapartners-google
proximic
maxpointinteractive

Quant au Googlebot aucun soucis il n'essaye pas d'accéder à ce type d'URL


Mediaparters-google= robot régie adsense Google 66.249.69.217=plage Google
Proximic= robot envoyé par partenaire pub adsense de Google = 54.157.55.188 = effectivement son adresse réelle
... à mon avis troisième idem

Tu est sur que ces adresses fantômes n'affichent pas quelque chose? (Y compris piratage du site).
Patrick

noren
WRInaute accro
WRInaute accro
 
Messages: 2847
Enregistré le: 8 Avr 2011

Re: Des tonnes d'accès par jour à des pages inexistantes

Message le Jeu Déc 01, 2016 16:54

Qu'entends-tu par "afficher quelque chose" ?

Moi je vois juste dans mes logs les lignes que j'ai indiqué, par conséquent je n'ai aucun moyen de savoir la source exact. :/

J'ai au moins 2-3 visites de ce genre par minutes, c'est énorme...
Et si je comprend bien je peux même pas les bloquer, car si jamais j veux coller du adsense sur mon site, ça va poser problème exact ?
Le fait de rediriger ces muavaises URL vers une 404 est-ce que ca suffit? :?

maxpointinteractive c'est aussi un partenaire adsense ? Si c'est le cas le problème semble etre lié avec adsense, hors je n'ai pas encore adsense sur mon site.

patrick_lejeune
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 341
Enregistré le: 1 Avr 2016

Re: Des tonnes d'accès par jour à des pages inexistantes

Message le Jeu Déc 01, 2016 18:03

l'adresse exacte est inscrite dans le log:
IP 66.249.69.217 http://www.monsite.ext - [24/Nov/2016:10:49:28 +0100] "GET /s653 HTTP/1.1" 301 25 "-" "Mediapartners-Google"

adresse IP de provenance: 66.249.69.217
page visitée: http://www.monsite
Date
Par contre, il y a autre chose de louche (en relisant):
Get /s653 (une requète par GET vers la page s653 (genre index.php?XXX=s653)
avec comme résultat 301 (erreur), je présume
sur le port 25 ???? (=port de sortie pour les mails)
Pour le 301, je suis presque sûr. Beaucoup moins pour le numéro de port

En deuxième, mediapartners et proximix ne viennent sur une page QUE SI UNE PUB du réseau adsence est présente.

Faudra attendre d'autres avis plus éclairés

PS: 150.70.173.51 est une adresse ip de TREND Micro (une entreprise japonaise qui édite un antivirus OFFICIEL)

noren
WRInaute accro
WRInaute accro
 
Messages: 2847
Enregistré le: 8 Avr 2011

Re: Des tonnes d'accès par jour à des pages inexistantes

Message le Sam Déc 03, 2016 13:37

Comment dans ce cas retrouver la source du problème ?

Avec les adresses IP ca ne donnera rien vu que ca correspond bien à proximic et mediapartners-google.
Le port 25 correspond de base a SMTP. Ou peut etre telnet ? mais comment dois je interpréter ici ?

Sachant que les pages auxquels ils essayent d'accéder n'existent pas et elles sont toutes sous la meme forme http://www.monsite.ext/unelettreetunesuitedechiffre

Donc la actuellement je ne vois pas où chercher ?, et je redirige donc pour le moment ces accès en 404, est-ce suffisant ? quels sont les risques ?


anemone-clown
WRInaute passionné
WRInaute passionné
 
Messages: 1683
Enregistré le: 11 Nov 2007

Re: Des tonnes d'accès par jour à des pages inexistantes

Message le Dim Déc 04, 2016 17:19

Les liens auxquels tentent d'accéder ces robots existent quelque part sur ton site (ou ailleurs). C'est parfois le cas avec des liens "construits" dans le code Javascript ou des formulaires (peut être ton cas avec un Get) que les robots peuvent mal interpréter : il serait donc judicieux de piéger l'origine de ces liens en testant le referrer (ce n'est pas forcément probant mais ça donne des pistes parfois) et inscrire tout cela dans un fichier texte plus lisible que des logs.

De mon côté, j'ai créé un petit script dans le code php qui écrit (plus ou moins bien... :roll: ) des règles de ré-écriture prédigérées comme :
Code: Tout sélectionner
RewriteRule ^definition-9221-mycorhize.html/RK=0/\.html   https://www.aquaportail.com/definition-9221-mycorhize.html [R=301,L]

Une erreur aujourd'hui : j'attends 3-4 jours (pour voir si l'erreur se répète ou se généralise ou reste anecdotique) pour éventuellement insérer une règle en 301 quelque part dans le site.

Autre cas aujourd'hui :
Code: Tout sélectionner
RewriteRule ^definition-2508-méristique\.html   https://www.aquaportail.com/definition-2508-meristique.html [R=301,L]
RewriteRule ^definition-3831-étiologie\.html   https://www.aquaportail.com/definition-3831-etiologie.html [R=301,L]

C'est un problème de caractères accentués dans le lien (et ça ne vient pas de "chez moi" : je vais créer une règle qui teste la présence de caractères accentués dans l'URI pour rediriger automatiquement vers la canonique).

Si tu sais manipuler ta plateforme, ce n'est pas bien compliqué de collectionner les mauvaises URI ($_SERVER['REQUEST_URI']) avec le Referrer : un script de quelques lignes suffit.

En revanche, "j'aime bien" ces mauvaises urls : ça me permet de relire des pages du site ... :mrgreen: et de les améliorer quand c'est possible (ce qui sera fait pour les 3 cas en exemple).

noren
WRInaute accro
WRInaute accro
 
Messages: 2847
Enregistré le: 8 Avr 2011

Re: Des tonnes d'accès par jour à des pages inexistantes

Message le Lun Déc 05, 2016 12:06

Ce qui me laisse a penser que ça ne vient pas directement de mon site c'est que je n'ai tout simplement aucun script google adsense sur le site en question, donc aucune raison d'avoir autant de mediaparners-google etc.

De plus quand je regarde mes logs je ne vois rien de suspect avec le googlebot, il ne visite a priori aucune page de ce genre.
Par contre d'après le google webmaster tools il m'indique qu'il explore plus de 600 voir parfois plus de 900 pages par jours, hors je n'ai pas plus de 200 pages sur mon site (si on ne compte pas les images).
Est-ce que dans le Google webmaster tools il prend en considération les images (et donc l'exploration de google-image) ? car dans ce cas ces valeurs pourraient se justifier etant donné que j'ai pas mal d'images dans chaque article.

De plus ca fait pas loin de 10 jours que mes 2 derniers articles ne s'indexent pas. Meme si je force l’exploration (et l'indexation), ils sont bien indexés puis quelques temps après ils sont à nouveau desindexés.

Est-il possible que google et autres bots en visitant un autre site pensent visiter mon site ? a cause d'une utilisation d'iframe ou autre technique utilisés par le spammeurs et pirates pour copier a la volé un site

J'ai vérifié également pour voir si les 100 derniers jours un fichier avait été modifié ou ajouté sur mon ftp et je n'ai rien vu de suspect.

Dans ce cas pour trouver le referer ca va pas etre simple

noren
WRInaute accro
WRInaute accro
 
Messages: 2847
Enregistré le: 8 Avr 2011

Re: Des tonnes d'accès par jour à des pages inexistantes

Message le Lun Déc 05, 2016 12:25

Bon j'ai vérifié et lorsque dans le GWT ca m'indique plus de 900 pages explorées, dans mes logs je ne vois pas plus de 250 pages explorées par googlebot (images comprises)...

J'y comprend rien.

J'ai fait un log qui récupère toutes les 404 ainsi que le referer et ca donne rien. Le referer est vide

De plus maintenant dans les logs ca n'indique plus 25 mais 570 :

Code: Tout sélectionner
64.20.243.132 www.monsite.ext - [05/Dec/2016:12:22:13 +0100] "GET /q679 HTTP/1.1" 404 570 "-" "MaxPointCrawler/Nutch-1.10 (maxpoint.crawler at maxpointinteractive dot com)


Des fois pendnat 2-3 minutes je n'ai aucune visite de ce genre et parfois j'en ai une dizaine d'affilé. ca dure maintenant depuis le 24 novembre !
Modifié en dernier par noren le Lun Déc 05, 2016 13:24, modifié 1 fois.

noren
WRInaute accro
WRInaute accro
 
Messages: 2847
Enregistré le: 8 Avr 2011

Re: Des tonnes d'accès par jour à des pages inexistantes

Message le Lun Déc 05, 2016 13:09

J'ai aussi pas mal de visites avec ces ip

137.74.122.5
137.74.122.3
137.74.122.35
137.74.122.36

Avec des user-agent de type proximic également, ou comme ceci "Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36"

Comment savoir si ces ip sont douteuses ou appartiennent également a un organisme lié également a adsense etc.

le whois ip me donne ceci :

Organization Beyond Excellent Technology Ltd
ISP Beyond Excellent Technology Ltd
AS Number AS16276 OVH

PS : j'ai encore essayé de forcer l'indexation d'un de mes dernier articles via le GWT, j'ai bien vu que Googlebot est passé sur ma page, mais elle n'est toujours pas indexée...

noren
WRInaute accro
WRInaute accro
 
Messages: 2847
Enregistré le: 8 Avr 2011

Re: Des tonnes d'accès par jour à des pages inexistantes

Message le Lun Déc 05, 2016 13:56

Bon je viens également d'essayer de mettre mon site en maintenance (avec erreur 503) mais toujours le même soucis les bots proximic, mediapartners, maxpointinteractive et getindent continuent d'essayer d'aller sur ces URL inexistantes (biensur ca leur renvoi une erreur 503). Ce n’est jamais les mêmes url.

Il y a vraiment de très fortes chances que ce probleme vient de l'extérieur et non en interne. Il doit y avoir un p*tain de site qui doit renvoyer ces bots chez moi, je ne vois pas d'autres explications pour le moment. Mais comment l'identifier!

Arf ca devient catastrophique, googlebot commence a s'y mettre :

Code: Tout sélectionner
66.249.69.43 www.monsite.ext - [05/Dec/2016:13:52:57 +0100] "GET /s328 HTTP/1.1" 404 570 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"


:? :(

Google va donc avoir sur mon site des milliers d'erreurs 404, mon site va etre extrêmement polluer et je ne vois absolument pas d'ou vient la source du probleme

noren
WRInaute accro
WRInaute accro
 
Messages: 2847
Enregistré le: 8 Avr 2011

Re: Des tonnes d'accès par jour à des pages inexistantes

Message le Lun Déc 05, 2016 14:29

Je viens également d'utiliser l'outil d'audit seo sur myrankingmetrics.com pour voir si il detectait des URL non désirées, et RAS

noren
WRInaute accro
WRInaute accro
 
Messages: 2847
Enregistré le: 8 Avr 2011

Re: Des tonnes d'accès par jour à des pages inexistantes

Message le Lun Déc 05, 2016 17:36

Alors actuellement pas mal de sites chez OVH sont hors service et on a une belle page 503 (site en maintenance) générée directement par OVH. On ne peut même plus accéder a son FTP non plus.

Pourtant je remarque toujours dans mes logs des tentatives d'accès de la part de mediapartners-google etc. à des pages inexistantes sur mon site.
Si le problème venait de mon site et de mon script (voir même d'un hack interne), le site étant actuellement hors service, le problème aurait du également temporairement s’arrêter, non ?

Ca confirme que le soucis vient bien de l’extérieur ? si c'est bien le cas, maintenant, comment trouver la source du problème ?

patrick_lejeune
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 341
Enregistré le: 1 Avr 2016

Re: Des tonnes d'accès par jour à des pages inexistantes

Message le Lun Déc 05, 2016 20:11

noren a écrit:J'ai aussi pas mal de visites avec ces ip

https://www.google.fr/search?sourceid=navclient&aq=hts&oq=&hl=fr&ie=UT ... 7.74.122.5
plage OVH server, autre problème peut-être.
> noren: deux - trois choses
1. l'adresse du site (y compris en MP)
2. arrête de paniquer et d'ajouter posts sur posts
3. le problème est de comprendre si ces accès existent ... ou non.
8)

noren
WRInaute accro
WRInaute accro
 
Messages: 2847
Enregistré le: 8 Avr 2011

Re: Des tonnes d'accès par jour à des pages inexistantes

Message le Lun Déc 05, 2016 20:54

Non je crois que tout est lié

je suis tombé la dessus dans mes logs :

Code: Tout sélectionner
172.243.110.87 www.monsite.ext - [05/Dec/2016:20:05:18 +0100] "GET /?p=1470452881&subid=524&uid=38848A0E9FC84583 HTTP/1.1" 404 570 "http://209.222.109.19/api/getlinks.php?click=XXXXXXX&type=v&spoof_domain=www.monsite.ext&land_ip=148.251.154.205&group=G1&subid=XXX&uid=XXXXXXXXXXX" "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; Touch; rv:11.0) like Gecko"


Attaque spoof domain, ça pourrait coïncider ? et si oui comment confirmer que c’est bien ça (quel test faire) ? a quoi ça correspond exactement ? et ensuite comment le stopper ?

Ca pourrai expliquer que mes derniers articles ne s'indexe pas, que dans le WGt je vois un grand nombre de pages explorées alors que je ne constate rien dans mes logs, et qu'il y ai ses fausses URL, non ?

DNS Spoofing », « DNS Cache Poisonning » ?

patrick_lejeune
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 341
Enregistré le: 1 Avr 2016

Re: Des tonnes d'accès par jour à des pages inexistantes

Message le Mar Déc 06, 2016 20:10

noren a écrit:Attaque spoof domain, ça pourrait coïncider ? et si oui comment confirmer que c’est bien ça (quel test faire) ? a quoi ça correspond exactement ? et ensuite comment le stopper ?


Ca pourrai expliquer que mes derniers articles ne s'indexe pas, que dans le WGt je vois un grand nombre de pages explorées alors que je ne constate rien dans mes logs, et qu'il y ai ses fausses URL, non ?

DNS Spoofing », « DNS Cache Poisonning » ?[/quote]

Bien grand mots, mais avant, faut essayer de comprendre. En premier, si tu as des visites dans les log SERVEUR, c'est une visite sur TON serveur (et pas sur un autre qui aurait détourné le site sur un autre).
En MP, t'envoie l'adresse IP du site, vérifie si c'est bien celle de ton hébergement :wink:
En deuxième, analyser les fichiers log serveurs est toujours difficile. Je peux modifier mon petits outils de tests "anti-crapu*lles" pour ne récupérer que les réels accès sur tes pages (hors blocage des copieurs, robots, ...).
En troisième: la question se pose, est ce que le serveur a été piraté?

noren
WRInaute accro
WRInaute accro
 
Messages: 2847
Enregistré le: 8 Avr 2011

Re: Des tonnes d'accès par jour à des pages inexistantes

Message le Mer Déc 07, 2016 13:28

Bon j'ai essayé la protection DNSSEC (OVH le propose); Il s'agit d'une protection contre le cache poisoning et le dns spoofing, mais a priori ca ne change rien, j'ai toujours ces visites des bots (proximic, mediapartners-google etc.)

L'adresse IP que tu m'as envoyé en MP correspond bien à celle de mon serveur.

De mon côté :

- j'ai fait un scan de mon site avec myrankingmetrics.com, et cet outil ne m'a détecté aucune mauvaise URL
- J'ai utilisé pas mal d'outil comme virustotal et de 2-3 autres outils idem. ils n'ont rien détecté.
- Quand je regarde le code source de mes pages html générées je ne vois rien de suspect non plus. J'ai également vérifié les derniers fichiers ajoutés et modifiés de ces 100 derniers jours et idem rien de suspect.
- J'ai vérifié les logs FTP fournis par OVh sur les 4 derniers mois et rien de suspect non plus
- J'ai vérifié mes logs persos qui sont créés en cas de tentatives d'injection et d'attaques de force brute, RAS
- De plus si c’était mon code qui créait tout seul ces mauvaises url (a cause de lignes mal codées en JS ou je ne sais quoi) il n'y aurait aucune raison d'avoir des bots adsense étant donné que je ne met aucun script adsense sur mon site.

Ce que je comprend pas, c'est qu'hier pendant plus d'une heure pas mal de sites chez OVH étaient hors service et le mien compris. meme le FTP était inaccessible et pourtant les visites des proximic, mediapartners etc. ont continué (ca créait des erreur 503, mais il essayaient tout de meme d'accéder à ces pages inexistantes).
Si ca venait directement de mon site et d'une faille exploitée, lorsque les serveurs d'OVH étaient HS les visites anormales auraient du stoppées non ?

Tout porte à croire que ces visites sont provoquées par un élément externe. Est-il possible qu'un site extérieur (ou je ne sais quoi : via telnet etc.) renvoi les bots de adsense etc. sur mon site ?

Ce qui inquiète également c'est ceci :

Code: Tout sélectionner
172.243.110.87 www.monsite.ext - [05/Dec/2016:20:05:18 +0100] "GET /?p=1470452881&subid=524&uid=38848A0E9FC84583 HTTP/1.1" 404 570 "http://209.222.109.19/api/getlinks.php?click=XXXXXXX&type=v&spoof_domain=www.monsite.ext&land_ip=148.251.154.205&group=G1&subid=XXX&uid=XXXXXXXXXXX" "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; Touch; rv:11.0) like Gecko"


Cette histoire de spoof domain semble être une réelle piste, mais si le DNSSEC ne change rien, ce n'est pas logique non plus.
Comment expliquer que dans le GWT, ca m'indique que Google à explorer plus de 900 pages, alors que dans mes logs d'OVH il a visité tout juste une centaine de page ? (Prend t-il en compte les visites de mediapartners-google? ca m'étonnerait vu que c'est adsense). C'est comme si google exploraient des pages quelquepart en pensant qu'il s'agit de mon site.

Voilà d'autres lignes suspectes :

Code: Tout sélectionner
66.249.69.6 www.gameophage.com - [07/Dec/2016:05:25:00 +0100] "GET /.well-known/apple-app-site-association HTTP/1.1" 301 223 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
137.74.122.36 www.gameophage.com - [07/Dec/2016:05:25:01 +0100] "GET /.well-known/apple-app-site-association HTTP/1.1" 404 570 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"


On voit que le google bot essaye d'accéder a cette page .well-known/apple-app-site-association 'rien d'anormal il me semble c'est un soucis avec IOS)
Mais par contre juste après c'est cette ip 137.74.122.36 qui se fait passé pour le googlebot et qui essaye d'accéder au meme fichier

Autre chose de bizarre, quand j'essaye de bloquer les ip suivantes via le .htaccess ca ne marche pas, elles passent toujours :

Code: Tout sélectionner
order allow,deny
deny from 137.74.122.3
deny from 137.74.122.35
deny from 137.74.122.36
deny from 137.74.122.5
deny from 137.74.120.4
deny from 137.74.120.5
deny from 137.74.120.37
deny from 137.74.120.35
deny from 137.74.120.36
allow from all


Donc pour l'instant j'en suis toujours au meme point

patrick_lejeune
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 341
Enregistré le: 1 Avr 2016

Re: Des tonnes d'accès par jour à des pages inexistantes

Message le Mer Déc 07, 2016 18:21

Te rassure, jamais eut ce type de problème sur mes sites :wink: Pourtant, sur tous les membres de WRI, suis probablement le plus en avance sur la suppression des bricolages et de bricoleurs.
Personnellement, suis pas un spécialiste de l'étude des fichiers logs: erreur et accès (en plus, le fichier reprend tous les fichiers intégrés comme les images: difficile à réellement analyser).

On va découper le problème.
1. Je suppose que les erreurs 404 (pages inexistantes) sont renvoyées vers une page spécifique. Je sais pas ce que tu utilise comme système de stats (Google analytic, Xiti, ...). Met le code du système de stat sur cette page. Si ce n'est pas le cas, crée une page erreur-404.php (en no-index, no follow pour les moteurs) et en .htaccess renvoie ces erreurs avec la commande

Ca va permettre deux choses: voire les erreurs 404 (page qui n'existe pas) et les accès (selon le script de stat utilisé on peut trouvé "parfois" les pages de références).
2. bloquer les bricolages.
Quand je dis que je suis très en avance pour la protection de sites (même trop parfois :oops: ), il y a des techniques de programmation qui permettent certaines choses (y compris virer les bricolages.
. Pages complètement statiques sans paramètres, a insérer en tout début:
<?php
$adresse_reel="/adresse de la page";
// exemple /contact.php
$page=$_SERVER['REQUEST_URI'];
if ($page<>$adresse_reel)
{
//header('Location: http://www.exemple.com/contact.php');
// on interdit l'accès
header("HTTP/1.1 403 Forbidden");
//include ('includes/tests-ip.php');
exit();
}
//include ('includes/tests-ip.php');
?>

Dès qu'il y a paramètre -> erreur 403 (forbiden)
ou (plus dangereux mais plus friendly)

<?php
//include ('../tests-ip.php');
$adresse_reel="/contact.php";
$page=$_SERVER['REQUEST_URI'];
if ($page<>$adresse_reel)
{
header('Status: 301 Moved Permanently', false, 301);
header('Location: /contact.php');
exit();
}
?>

Cette méthode renvoie en erreur 301 (redirection permanents) vers la page réelle. Te conseille (si c'est possible) de mettre ce code en début de quelques pages.
Remarque les //include ('../tests-ip.php'); (en commentaires donc pas exécutés). Ce script est très violent dans mon cas, pas trop le temps de le réduire dans ton cas puisqu'il reprend les visituers (ip, host, ...), bloque les parasites, ...
Je regarderais si c'est nécessaire pour qu'il ne reprenne en MySQL que les visiteurs (réels ou robots).

noren
WRInaute accro
WRInaute accro
 
Messages: 2847
Enregistré le: 8 Avr 2011

Re: Des tonnes d'accès par jour à des pages inexistantes

Message le Mer Déc 07, 2016 19:43

J'ai ajouté le script Analytics sur ma page 404 mais pour le moment toutes les visites sur les pages en 404 ne s'ajoutent pas dans GG analytics. Analutics ne prend pas en compte les bots dans les stats, et c'est surtout les bots (mediapartners etc.) qui vont sur les pages 404 suspectes.
J'en ai choppé un mais en referer ca m'indique "direct"

Résultat ca n'abouti à rien :/

ce que tu propose ensuite, c’est de détecter sur mes pages, si on essaye d'y accéder avec des paramètres en get non désiré et si c’est le cas de renvoyer un 403 puis de récupérer l'IP exact ?

Mais la pareille, l'ip que je récupère c'est celle des bots, et a priori se sont des IP officielles de ces bots. Donc je ne pourrais rien tirer des IP. De plus le referer est vide.
Actuellement je me crée déjà un log : lorsqu'on essaye d'accéder a une page inexistante, j'affiche ma 404 et j'enregistre dans le log le referer la page cible et l'IP. Mais comme indiqué l'IP et le referer ne sont pas exploitables :(

noren
WRInaute accro
WRInaute accro
 
Messages: 2847
Enregistré le: 8 Avr 2011

Re: Des tonnes d'accès par jour à des pages inexistantes

Message le Mer Déc 07, 2016 22:28

C’est bien plus grave.

Googlebot passe de moins en moins sur mon site. Il visite pas plus d'une 50aine de pages (images comprises et d’après mes logs d'OVH) dans la journée alors qu'il en visitait au moins 10 fois plus.
Soit ses explorations partent ailleurs (chez le pirate) soit GG a détecté un soucis et explore beaucoup moins mon site.

P*tain j'ai vraiment besoin d'aide là pour identifier cette merde.

elji
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 262
Enregistré le: 6 Juin 2009

Re: Des tonnes d'accès par jour à des pages inexistantes

Message le Jeu Déc 08, 2016 13:01

Je crois que si cela m'arrivait je ferais un test pour en savoir plus.
Je créérais une page qui n'existe pas, mais qui est régulièrement appelé par les robots, une page avec un contenu bidon et sans aucun backlink, et je regarderais très finement les logs de cette page, en cherchant le referrer.

noren
WRInaute accro
WRInaute accro
 
Messages: 2847
Enregistré le: 8 Avr 2011

Re: Des tonnes d'accès par jour à des pages inexistantes

Message le Jeu Déc 08, 2016 13:18

Les pages appelées par les robots sont constamment différentes. Même si j'en crée une ils ne repasseront jamais dessus. :/

patrick_lejeune
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 341
Enregistré le: 1 Avr 2016

Re: Des tonnes d'accès par jour à des pages inexistantes

Message le Jeu Déc 08, 2016 19:19

noren a écrit:ce que tu propose ensuite, c’est de détecter sur mes pages, si on essaye d'y accéder avec des paramètres en get non désiré et si c’est le cas de renvoyer un 403 puis de récupérer l'IP exact ?

Mais la pareille, l'ip que je récupère c'est celle des bots, et a priori se sont des IP officielles de ces bots. Donc je ne pourrais rien tirer des IP. De plus le referer est vide.
Actuellement je me crée déjà un log : lorsqu'on essaye d'accéder a une page inexistante, j'affiche ma 404 et j'enregistre dans le log le referer la page cible et l'IP.

Noren tu sais que j'ai nettement mieux pour bloquer les robots, copieurs automatiques, ... et autres bricoleurs. Malheureusement, ce script PHP - MySQL est un peu lourd et risquerait de bloquer des visiteurs standards (en plus qu'il discosie les réels robots (Google, msn, Yahoo et quelques mineurs) des autres. Plus de la moitié des visiteurs d'un site belge ou français viennent de Russie, Ukraine, Chine, Taiwan ...
Réduire le développement prend du temps (et c'était pas prévu dans mon planning ni avec mes problèmes de santé) :wink:
Laisse moi quelque jours, c'est beaucoup de travail: surtout que dans ton cas je ne dois pas discossier les visiteurs des robots. Pas contre, pas de javascript -> tout ce qui lit le code est repris dans une table. Depuis 2003, j'ai la réputation d'être un webmaster un peu fou (me souvient d'un post qui m'était destiné: avec tes bricolages et tests, Google finira par t'en coller une).

Je suis pas sûr que ces parasitages réduisent les visitent des robots de Google. Par principe, un peu comme Zeb, je bloque tout ce qui bouffe ma bande passante mais mes bricolages sont toujours un peu apprenti sorcier.
Par curiosité, le site descend en visiteurs ou non?

noren
WRInaute accro
WRInaute accro
 
Messages: 2847
Enregistré le: 8 Avr 2011

Re: Des tonnes d'accès par jour à des pages inexistantes

Message le Jeu Déc 08, 2016 23:38

c'est sympas, malheureusement j'ai bien peur que la seule chose que l'on bloquera c'est des IP de mediapartenrs-google, proximic etc., en gros des IP valides que je ne souhaite pas bloquer. Je compte un jour ajouter adsense, mieux vaut que les bots ce jour la puisse passer sur mon site.

J'ai regardé mes logs en long en large et en travers j'ai essayé de bloquer toutes les IP douteuses et ca n'a rien changé.

Il y a même des Ip que j'ai essayé de bloqué via le .htaccess et qui passent quand même 8O

Honnêtement je ne suis pas forcément un expert, mais je dois avouer que le problème actuel me dépasse réellement.

La pour le moment j'ai interdit l'exploration via le robots.txt a quelques robots de façon temporaire en attendant de trouver une solution. Mais ca ne suffit pas.

Ca fait plus d'une semaine que je suis dessus a temps plein et je n'aboutis a aucun résultat concluant

Dans mes logs créés dans le cas d'une 404 j’obtiens des tonnes de lignes de ce genre ;

Code: Tout sélectionner
2016-12-08 22:44:03 : http://www.monsite.ext/s582
IP : 108.59.8.14 REFERER :

2016-12-08 22:48:05 : http://www.monsite.ext/k740
IP : 52.3.250.2 REFERER :

2016-12-08 22:52:56 : http://www.monsite.ext/f330
IP : 52.71.155.178 REFERER :

2016-12-08 22:56:43 : http://www.monsite.ext/s866
IP : 75.98.9.249 REFERER :

2016-12-08 23:02:37 : http://www.monsite.ext/?p=xxxx&subid=xxx&uid=xxxxxxxx
IP : 50.204.187.62 REFERER : http://www.monsite.ext

2016-12-08 23:02:39 : http://www.monsite.ext/k129
IP : 54.191.54.79 REFERER :

2016-12-08 23:03:36 : http://www.monsite.ext/f279
IP : 54.213.233.41 REFERER :

2016-12-08 23:06:02 : http://www.monsite.ext/s480
IP : 206.16.134.24 REFERER :

2016-12-08 23:07:34 : http://www.monsite.ext/s744
IP : 198.148.15.20 REFERER :

2016-12-08 23:17:47 : http://www.monsite.ext/k737
IP : 52.53.165.75 REFERER :

2016-12-08 23:26:41 : http://www.monsite.ext/s545
IP : 54.149.102.224 REFERER :


Et encore j'ai bloqué temporairement mediapartners, proximic etc.

C'est loin d'être le pire j'ai également des trucs comme ça :

Dans les lignes suivantes on voit que L'utilisateur 142.169.82.109 a fait une recherche sur https://www.google.ca/ pour atterrir sur la page http://www.monsite.ext/pageA et pourtant les images, css et js incluses dans cette page sont appelées par 137.74.122.XX

Ces adresses IP 137.74.122.XX reviennent très souvent et les bloquer via le .htaccess ne fonctionne pas.

Code: Tout sélectionner
142.169.82.109 www.monsite.ext - [08/Dec/2016:17:45:50 +0100] "GET /pageA HTTP/1.1" 200 8592 "https://www.google.ca/" "Mozilla/5.0 (Linux; Android 6.0.1; SM-G930W8 Build/MMB29K) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.85 Mobile Safari/537.36"

137.74.122.36 www.monsite.ext - [08/Dec/2016:17:45:50 +0100] "GET /statique/bootstrap/css/bootstrap.min.css HTTP/1.1" 200 18717 "http://www.monsite.ext/pageA" "Mozilla/5.0 (Linux; Android 6.0.1; SM-G930W8 Build/MMB29K) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.85 Mobile Safari/537.36"

137.74.122.35 www.monsite.ext - [08/Dec/2016:17:45:50 +0100] "GET /statique/css/style.css HTTP/1.1" 200 2874 "http://www.monsite.ext/pageA" "Mozilla/5.0 (Linux; Android 6.0.1; SM-G930W8 Build/MMB29K) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.85 Mobile Safari/537.36"

etc.


Normalement les éléments de la page : images, css etc. devraient également être appelés par 142.169.82.109 :roll:

Oui le site descend un peu en visiteur. Mais pour le moment il en a pas beaucoup non plus.

elji
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 262
Enregistré le: 6 Juin 2009

Re: Des tonnes d'accès par jour à des pages inexistantes

Message le Ven Déc 09, 2016 12:07

noren a écrit:Les pages appelées par les robots sont constamment différentes. Même si j'en crée une ils ne repasseront jamais dessus. :/


Voilà une info intéressante.
Le robot n'est donc pas complètement abruti. S'il a vu qu'une page n'existait pas, il n'essaie pas d'y revenir.

Je n'ai pas de solution pour ton problème, mais je te conseille pourtant de ne pas y consacrer trop de temps. Je suis moi aussi chez OVH, et je regarde de temps en temps les rapports d'erreurs dans les logs, et chaque fois, j'y vois des trucs que je comprend pas.

Lundi, j'ai eu un max d'erreur FastCGI. Tous les jours, j'ai une poignée de trucs genre :

Code: Tout sélectionner
[Thu Dec 08 17:20:30 2016] [error] [client 207.46.13.181] [host www.monsite.com] (36)File name too long: access to /actu/unea\xc3\x83\xc6\x92\xc3\x86\xe2\x80\x99\xc3\x83\xe2\x80\xa0\xc3\xa2\xe2\x82\xac\xe2\x84\xa2\xc3\x83\xc6\x92\xc3\xa2\xe2\x82\xac\xc2\xa0\xc3\x83\xc2\xa2\xc3\xa2\xe2\x80\x9a\xc2\xac\xc3\xa2\xe2\x80\x9e\xc2\xa2\xc3\x83\xc6\x92\xc3\x86\xe2\x80\x99\xc3\x83\xc2\xa2\xc3\xa2\xe2\x80\x9a\xc2\xac\xc3\x85\xc2\xa1\xc3\x83\xc6\x92\xc3\xa2\xe2\x82\xac\xc5\xa1\xc3\x83\xe2\x80\x9a\xc3\x82\xc2\xa2\xc3\x83\xc6\x92\xc3\x86\xe2\x80\x99\xc3\x83\xe2\x80\xa0\xc3\xa2\xe2\x82\xac\xe2\x84\xa2\xc3\x83\xc6\x92\xc3\xa2\xe2\x82\xac\xc5\xa1\xc3\x83\xe2\x80\x9a\xc3\x82\xc2\xa2\xc3\x83\xc6\x92\xc3\x86\xe2\x80\x99\xc3\x83\xe2\x80\x9a\xc3\x82\xc2\xa2\xc3\x83\xc6\x92\xc3\x82\xc2\xa2\xc3\x83\xc2\xa2\xc3\xa2\xe2\x80\x9a\xc2\xac\xc3\x85\xc2\xa1\xc3\x83\xe2\x80\x9a\xc3\x82\xc2\xac\xc3\x83\xc6\x92\xc3\xa2\xe2\x82\xac\xc2\xa6\xc3\x83\xe2\x80\x9a\xc3\x82\xc2\xa1\xc3\x83\xc6\x92\xc3\x86\xe2\x80\x99\xc3\x83\xc2\xa2\xc3\xa2\xe2\x80\x9a\xc2\xac\xc3\x85\xc2\xa1\xc3\x83\xc6\x92\xc3\xa2\xe2\x82\xac\xc5\xa1\xc3\x83\xe2\x80\x9a\xc3\x82\xc2\xac\xc3\x83\xc6\x92\xc3\x86\xe2\x80\x99\xc3\x83\xe2\x80\xa0\xc3\xa2\xe2\x82\xac\xe2\x84\xa2\xc3\x83\xc6\x92\xc3\xa2\xe2\x82\xac\xc5\xa1\xc3\x83\xe2\x80\x9a\xc3\x82\xc2\xa2\xc3\x83\xc6\x92\xc3\x86\xe2\x80\x99\xc3\x83\xe2\x80\x9a\xc3\x82\xc2\xa2\xc3\x83\xc6\x92\xc3\x82\xc2\xa2\xc3\x83\xc2\xa2\xc3\xa2\xe2\x82\xac\xc5\xa1\xc3\x82\xc2\xac\xc3\x83\xe2\x80\xa6\xc3\x82\xc2\xa1\xc3\x83\xc6\x92\xc3\xa2\xe2\x82\xac\xc5\xa1\xc3\x83\xe2\x80\x9a\xc3\x82\xc2\xac\xc3\x83\xc6\x92\xc3\x86\xe2\x80\x99\xc3\x83\xc2\xa2\xc3\xa2\xe2\x80\x9a\xc2\xac\xc3\x85\xc2\xa1\xc3\x83\xc6\x92\xc3\xa2\xe2\x82\xac\xc5\xa1\xc3\x83\xe2\x80\x9a\xc3\x82\xc2\xb9ctu.php failed


Je veux consacrer mon temps à ce qui me rapporte, alors je regarde le nombre de visteurs uniques, le nombre de gens qui cliquent sur les pages, et s'il se passe des choses étranges sur mon serveur, il s'en passe aussi dans les terrains vagues et les caves des HLM.

noren
WRInaute accro
WRInaute accro
 
Messages: 2847
Enregistré le: 8 Avr 2011

Re: Des tonnes d'accès par jour à des pages inexistantes

Message le Ven Déc 09, 2016 13:12

Je peux difficilement fermer les yeux sur ce qui se passe. D'autant plus que le problème semble empirer chaque jour.
Ca semble également impacter le taux de crawl de Googlebot, l'indexation de mes pages etc.
De plus si un jour je compte ajouter adsense sur mes pages, je ne voudrais pas être blacklisté parce que les bots d'adsense détectes un comportement anormal sur mon site.

Je ne suis pas du genre a m'inquiéter pour quelques visites ou erreurs inexpliquées que je constate dans mes logs. La le problème semble bien plus grave

Vu mes logs j'ai de bonnes raisons de m'inquiéter, et j'ai rarement pris un problème autant au sérieux.

lorsque je force l'exploration de mes pages via le GWT (Google search console) , je vois bien dans mes logs l'Ip de google puis dès qu'il charge mes images, css et js c'est une ip du type 137.74.122.X qui prend le relais et se fait passé pour google dans le user-agent

idem lorsque quelqu'un fait une recherche via un google autre que google.fr par exemple

elji
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 262
Enregistré le: 6 Juin 2009

Re: Des tonnes d'accès par jour à des pages inexistantes

Message le Sam Déc 10, 2016 17:55

Suite à cette discussion, je viens de regarder dans le détail mes 404, et j'y ai trouvé les anomalies suivantes. Tous des trucs qui n'ont jamais existé sur mon site.

Code: Tout sélectionner
/browserconfig.xml
/wp-login.php
/apple-app-site-association
/.well-known/assetlinks.json
/.well-known/dnt-policy.txt
/actu/2015/includes/commands.php/
/actu/2015/main.php
/actu/2015/login.php
/actu/2015/css/table_view.css
/actu/2015/css/
/actu/2015/gate.php/
/actu/2015/statistics.php
/actu/2015/img/banners
/actu/2015/tmp/logs/
/actu/2015/app/
/actu/2015/lib/
/actu/2015/tmp
/login.php
/actu/2015/back.css
/actu/login.php
/panel/login.php
/adform/IFrameManager.html
/actu/2015/graphics/banner.png
/actu/2015/login.php?op=login
/actu/2015/style.css
/xmlrpc.php
/google_matched_content_whitelist.txt
/license.php
/this.options%5bthis.selectedindex%5d.value%3b'%3e
/actu/wp-login.php
/%3Cbr


Tout ça, c'est de ce matin. J'ai eu 124 erreurs 404 entre minuit et midi. Celui qui revient le plus est l'appel à la page d'admin de WP, parce qu'il doit y avoir des robots qui croient que j'utilise WP, même si ce n'est pas le cas.

Je pourrais assurément passer mon week-end à analyser tout ça, mais dans quel but ?
Patrick Lejeune a proposé de remplacer les 404 par des 403, mais est-ce que cela changerait quelque chose (en plus d'être dangereux) ? Si le robot continue à passer après avoir essuyé tant de 404, je ne crois pas que des 403 puisse le faire fuir.


indigene
WRInaute accro
WRInaute accro
 
Messages: 3258
Enregistré le: 7 Sep 2003

Re: Des tonnes d'accès par jour à des pages inexistantes

Message le Sam Déc 10, 2016 18:43

essaye de coller ces deux lignes dans ton .htaccess

Code: Tout sélectionner
RewriteCond %{REQUEST_URI} ^/([a-z])([0-9])([0-9])([0-9])$
RewriteRule ^([a-z])([0-9])([0-9])([0-9])$      http://www.gratuit.com  [R=301,L]


Ca va dégager tous les robots qui viennent tester une url qui commence par une lettre suivie de 3 chiffres

elji
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 262
Enregistré le: 6 Juin 2009

Re: Des tonnes d'accès par jour à des pages inexistantes

Message le Dim Déc 11, 2016 11:59

Oui, cela peut etre une bonne idée de rediriger le mauvais traffic vers l'extérieur.
En attendant, je vous livre une perle de mes logs :

Code: Tout sélectionner
User Agent: WebFuck V2.1 T0PHackTeam www.t0p.xyz

noren
WRInaute accro
WRInaute accro
 
Messages: 2847
Enregistré le: 8 Avr 2011

Re: Des tonnes d'accès par jour à des pages inexistantes

Message le Lun Déc 12, 2016 13:21

@elji : il y a beaucoup de ligne dans les logs qui sont "normales" et qui touchent la plupart des sites :

Code: Tout sélectionner
/wp-login.php
/apple-app-site-association
/.well-known/assetlinks.json
/.well-known/dnt-policy.txt


Mon soucis c'est bel et bien des lignes qui non rien de normal d'autant plus quand les bots liés a adsense tentent a de nombreuses reprises par jour alors que je n'ai aps adsense non plus. Ou de slignes qui sont plus que suspectes.

@indigene : pas persuadé que ca soit une bonne solution d'envoyer balader sur un autre site mediapartenrs-google

La seule chose que je dois faire c'est trouvé l'origine du problème et comment le bloquer, sinon le reste sera juste du bricolage. D'autant plus que je compte bien ajouter un jour des pubs adsense.

Googlebot n'explore quasiment plus mon site (une dizaine de page par jour maxi) hormis mes images,
Modifié en dernier par noren le Lun Déc 12, 2016 13:31, modifié 1 fois.


indigene
WRInaute accro
WRInaute accro
 
Messages: 3258
Enregistré le: 7 Sep 2003

Re: Des tonnes d'accès par jour à des pages inexistantes

Message le Lun Déc 12, 2016 13:30

Crois-tu réellement qu'il s'agit de google mediapartners ?
C'est sans doute de l'ip spoofing
Donc envoyer les hackers dans la stratosphère n'est pas idiot. D'autant plus que tu ne testes ni l'ip, ni le user agent, mais simplement la page accédée qui n'a rien de réel


Formation recommandée sur ce thème :

Formation Netlinking (liens et référencement) : apprenez ce qu'est réellement un bon lien pour le référencement et comment éviter ou sortir d'une pénalité manuelle ou algorithmique due aux liens. Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.

Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.

Lectures recommandées sur ce thème :