Énormément d'erreurs 404

WRInaute discret
Bonjour,

Je suis en train de créer un site web (il est sur internet) mais impossible de s'inscrire ou quoi que ce soit ... Jai décidé de personnaliser mes pages d'erreurs 404 pour qu'on m'envoie un mail avec comme contenu l'url depuis laquelle on a trouve cette page web. Comme ca je pourrais mieux découvrir le problème ...

Le problème c'est qu'en 1 jours j'ai eu 60 mails !!! Pourtant je suis a quelques personnes près le seul qui va sur ce site et je ny ai pas été aujourd'hui ... Oke Googlebot peut etre actif mais de la a tomber sur 60 erreurs 404 ca m'étonne. Surtout que il n'y a pas beaucoup de lien qui pointe vers des pages inexistantes ...

Et puis j'utilise la variable $_SERVER[] en PHP pour savoir quelle était la page précédente et dans 95 % des mails cette valeur est vide


Quelqu'un peut m'éclairer?

Merci beaucoup

Mtth
 
WRInaute impliqué
il faut regarder dans les logs pour savoir d'où viennent ces 404. surement un robot, qui a trouvé une "faille" dans les liens du site.
 
WRInaute passionné
BETA : http://www.bing.com/search?q=logs
(ben oui, la puissance de Google que tout le monde dénonce à longueur d'année, elle se combat au quotidien. Et j'y peux rien si "GETA" devient donc "BETA" :p )

Le répertoire où les consulter se trouve sans doute sur ton espace de stockage, le FTP.
 
WRInaute discret
Bonjour,

Aaain ok vous parlez du error.log
Ok je ne savais pas qu'il enregistrait les erreurs 404 ...

Je vais voir par la

Merci beaucoup

Mtth
 
WRInaute accro
Petit rappel sur les US et coutumes des visiteurs inutiles.

D'abord les Chinois qui essayent systématiquement de poster sur les forums sans se connecter ... c'est généralement 3 pages vues, la troisième c'est post.
Ensuite Russie et Ukraine: idem que les premiers mais aussi: visites de pages provenant d'une page d'un site russe (c'est une farce): leur idée est que les sites francophones publient leurs backlinks et ... recevoir un lien

Pour ces deux types (souvent le premier), tu va recevoir aussi tout ce qui ressemble à l'Asie (Taiwan, japon, ...) et pour le deuxième tout ce qui ressemble à du communisme: Pologne (et oui même s'ils ont officièlement changé de camps, il reste des irréductibles), bulgarie, létonie, biélorussie, ...

Pour des bricolages incompréhensibles, il y a les brésiliens: débarquent sur les sites à partir de serveurs ou connexions internent en se faisant passer pour ... Google bot.
Pour les stupides, il y a toute la panoplie d'Afrique centrale auquel je rajoute Madagascar. Débarquent à toute vitesse pour récupérer avec des logiciels de copie le maximum de pages à toute vitesse: en partie, c'est peut-être excusables: ils profitent peut-être d'une connexion Internet (genre cyber café) pour récupérer des "connaissances".
Tu peux aussi ajouter le Maroc et l'Algérie dans le même genre mais à dose plus (nettement) plus faible avec de temps en temps des bricolages plus répréhensibles (genre tentative de connexion aux serveurs par SSH: mais là on retrouve plus souvent le trio Chine, Russe, Ukraine).

Comme je veux pas passer pour racist*e, je poursuit avec les occidentaux (ou assimilés).
. Afrique du Sud, Israel: en 1 an de tests, jamais eut 1 seul visiteur d'un de ces pays qui n'ait pas tenté un bricolage: A interdire.
. USA, Germany, Hollande (un des plus gros hébergeur, ayant travaillé avec des hollandais, ce sont des commerciaux: tout ce qui peut rapporter de l'argent est bon à prendre ... et on retrouve souvent des sites russes hébergés sur leur plages). Il y a forcément des crétins dans ces pays (comme partout) mais avec plutôt un système commercial. Un paquet de visites pour récupérer les liens, le contenu. Ca passe par vendre qui fait des liens vers des sites à des analyses du contenu pour essayer de trouver qui fait des mauvais commentaires (surtout américains).

Les "mails serveurs": des robots qui visitent les sites pour récupérer des adresses mails en clair et les revendre ou les utiliser. La majorité des webmasters pensent forcément aux spécialistes des arnaques (côte d'Ivoire, Burundi, ...). Pourtant, les pays européens ne sont pas en reste (y compris Mea Culpa: des belges). L'Afrique les utilise, les européens les vendent. Et pour une fois, pas de communistes, d'américains, ...

J'ai pas tout mis, ca serait trop long :wink:

Et les erreurs 404 :wink:
Je suppose que tes liens internes sont corrects (petit exemple, sous Windows, pas de distinction des minuscules et majuscules et ... en Linux (utilisé par la majorité des hébergements) oui. Souvent un problème quand on crée le site en local avec Wampserver ou easyPHP).
Pour des vieux sites qui ont modifié des noms de pages (avec redirection): les bricoleurs ne suivent pas ces redirections (même avec htaccess). Deuxième truc, des serveurs (le plus souvent) piratés vont essayer toutes les failles de sécurité liés aux CMS avec des répertoires spécifiques liés à ces CMS. Comme tu n'utilise pas le CMS, l'adresse n'existe pas et ... erreur 404.

Pas trop s'inquiéter.

Comme belge, je serais chauvin en ne mentionnant pas que quelques plages belges ou même françaises (hébergeurs: Iliad, OVH) font aussi un paquet de bricolages.
Il ya quelques outils qui permettent d'analyser les liens brisés sur un site
L'adresse du site?
 
WRInaute accro
J'oubliais les bricoleurs mails: envoi de mails sur chaque nom de domaine en reprenant postmaster@site, info@site, contact@site, site@site.com, ...
Internet, c'est de plus en plus un brol (nécessaire souvent,pas toujours) :mrgreen:
 
WRInaute discret
Ahaha merci pour ces précisions de " l'autre manière d'utiliser Internet " :p
Je ne savais pas que Internet etait malheureusement tellement exploité de cette manière ...

Ca va donc je ne dois pas trop m'inquiéter.

Mais il n'y que tres peu
de visiteurs qui viennent de ses pays (d'après Google Analytics) et ils arrivent a me trouver 70 erreurs 404 et une minute et puis plus rien pendant quelques heures et puis rebelote ...

Pour l'url www.summaries.be . Ce n'est pas le but que vous me disiez ce que vous pensez du site car ce n'est (pas encore) le but: il n'est pas encore prêt! ;-) et le site est en néerlandais et (pas encore!!) de traduction française pour le moment ( oui je suis aussi belge :p )

Merci

Mtth
 
WRInaute passionné
@ybet,

Pour les Chinois qui essaient de poster sans se connecter, on peut aussi ajouter ceux qui créent des comptes à la pelle en espérant les utiliser plus tard. Pour un peu, sans savoir, on pourrait croire que le web francophone a un succès fou en Russie, Ukraine et Chine.

J’ai l’impression que ça se calme avec l’Ukraine … peut‑être des suites de certains événements (mais je m’avance beaucoup là).

Pour ceux qui se déguisent en GoogleBot, il y aussi des français, hébergés chez OVH (je n’ai même que ces cas de déguisement en GoogleBot).

Pour ceux qui essaient de scanner les sites pour revendre des informations sur la réputation, je crois que c’est le cas de AhrefsBot, qui dans le passé a opéré depuis l’Ukraine, mais depuis cette année, surtout depuis les États‑Unis : avec 80 connexion simultanés ou un peu plus, il abuse.

Il y aussi ceux qui testent l’existence d’un accès WebDAV, ou d’autres méthodes HTTP (autres que GET, et HEAD), ce qui est toujours suspect à mes yeux.

mtth a dit:
Ahaha merci pour ces précisions de " l'autre manière d'utiliser Internet " :p
Je ne savais pas que Internet etait malheureusement tellement exploité de cette manière
Parfois je me lamente en me disant que sur le web, les robots sont plus actifs que les humains. Ça dépend aussi de la fréquentation d’un site : plus un site est peu fréquenté, plus la proportion de robots nuisibles semble importante, ce qui est logique, et ça laisse l’impression que le site ne semble exister que pour eux (et ça déprime).
 
WRInaute accro
hibou57 a dit:
J’ai l’impression que ça se calme avec l’Ukraine … peut‑être des suites de certains événements (mais je m’avance beaucoup là).

Chez moi pas mais avec 3 niveaux déblocages progressifs (un avec 403 sur les pages, 1 par htaccess et un dernier en iptables sur le serveur ... les plages russes, chinoises et ukrainiennes dégagent à fait.

hibou57 a dit:
Pour ceux qui se déguisent en GoogleBot, il y aussi des français, hébergés chez OVH (je n’ai même que ces cas de déguisement en GoogleBot).
idem qu'au dessus.

hibou57 a dit:
Pour ceux qui essaient de scanner les sites pour revendre des informations sur la réputation, je crois que c’est le cas de AhrefsBot, qui dans le passé a opéré depuis l’Ukraine, mais depuis cette année, surtout depuis les États‑Unis : avec 80 connexion simultanés ou un peu plus, il abuse.
petit outils maison en place depuis 6 mois: tout ce qui fait 3 visites sur des pages différentes en moins de 3 secondes se prend une 403. Pourtant, depuis quelques semaines, petites modif (ils ont du comprendre): chaque fois deux fois la même page avant la suivante.

hibou57 a dit:
Il y aussi ceux qui testent l’existence d’un accès WebDAV, ou d’autres méthodes HTTP (autres que GET, et HEAD), ce qui est toujours suspect à mes yeux.

Viré effectivement tout ce qui ressemble en user agent à WinDev ... mais surtout bloqué un paquet de plages de serveurs: 1 briciolage à partir d'un serveur et blocage de la plage complète. Les pires: serveurs néerlandandais avec souvent des sites russes, USA, russes, japonais et corée du Sud (je pensais qu'on était en paix avec ceux-là).

Avec 3 niveaux (paramétrés manuellement), j'en bloque encore tous les jours (en bloquant les petits bricoleurs de copie temporairement): spécialité algérie: première page avec 1 navigateur, tu attend 20 secondes et un autre navigateur de la même IP débute une copie en règle brutale à partir de la page (et bloqué par le premier niveaux).

Je suis pas un une vedette de la sécurité mais un peu mare de ces bricolages inutiles. De toute façon, tout ce qui semble un peu trop (tentatives ssh, proftpd, ...): interdiction sur le serveur.
 
WRInaute discret
Bonjour,

J'en avais mare et j'ai donc voulu savoir qui etait derrière tout ca donc j'ai utilisé les variables SERVER et j'ai remarque que le robot s'appelle MJ12bot qui vient de "majestic.co.uk/bot.php" et cest toujours et seulement lui qui passe ... Sur leur site ils mettent qu'il veulent crawler ces sites pour créer " un nouveau moteur de recherche RÉVOLUTIONNAIRE ...". Il y a seulement 2 ou 3 erreurs 404 de la part de GOOGLEBOT ... majestic.co.uk/ dit qu'on peut aussi empêcher ce robot de passer ou bien de limiter le nombre de pages crawlé par secondes ... Bonne ou mauvaise idée?

En effet moi ca me déprime ... :/ car il y a personne d'autre qui visite mon site sauf ces russes ...

Bref, merci et bonne soirée

Mtth
 
WRInaute accro
mtth a dit:
le robot s'appelle MJ12bot qui vient de "majestic.co.uk/bot.php" et cest toujours et seulement lui qui passe ...
mj12 est plus spécifique: il n'y a pas d'adresse dédiée: ca vient de partout.
là c'est en htaccess
RewriteCond %{HTTP_USER_AGENT} ^MJ12bot [NC,OR]
RewriteRule ^.* - [F]
 
Discussions similaires
Haut