GoogleBot : "Attaque" en rêgle

Nouveau WRInaute
Bonjour à tous,

La fréquence de passage des googlebots est une 1ere question intéréssante. La deuxieme est la manière dont ils se comportent sur votre site. J'attends par là fréquence des requêtes envoyées pour analyser les pages. J'ai dernièrement développé un code (stockage en fichier pas d'accès mysql) de suivi de toutes les connexions IP entrante sur mon site pour mesurer le nb de requête par secondes de chaque adresse. (mon serveur mysql ayant du mal à supposer le trafic). Je suis les resultats depuis plusieurs semaine et je dois dire que j'ai été plutôt surpris des résultats.

De nombreuses IP arrivent avec plus de 20 cnx / 3s ... Avec bcp supérieur à 100, 200 voir 300.
Soite !

Je vois aussi les googlebots arriver, plutot délicat en terme de connexions 1 à 2 par 3s et 4 à 10 par 20s au début. Ce qui est ce à quoi on peut s'attendre dans les webmaster tools en terme de réglage. Sauf qu'en fait de temps en temps ils arrivent avec les salves de 300, voir aujourd'hui 3859 en 20s !! Pour info j'ai modifier cette fréquence il y a deux jours pour augmenter le nb de cnx par seconde sans mettre à fond, paramétrage de la Vitesse d'exploration dans les WMT :
4 demandes par seconde
0,3 secondes entre les demandes


Est-ce que quelqu'un à déjà constaté ce genre de comportement ?
Je bloque ces innondations de connexions, en envoyant un header 503 quand ca dépasse certaine valeur, cela aurait-il un impacte sur le ref ?
Et d'ailleurs quelle devrait être la limitation à mettre en place en nb de requete par secondes pour 3s et 20s ?

PS1 : Je n'emploi pas de cache car mon site à un contenu de pages mis à jour en temps réel pour le suivi des d'actus.
PS2 : Je suis certain du bon fonctionnement de mon code de suivi des cnx IP

La ligne posant question :
** crawl-66-249-73-77.googlebot.com** 66.249.73.77
1 cnx sur 3s time: Sat Feb 16 15:47:51 2013
3859 cnx sur 20s time: Sat Feb 16 15:47:51 2013


Le temps que j'écrive ce post voici la nouvelle ligne :
** crawl-66-249-73-77.googlebot.com** 66.249.73.77
4 cnx sur 3s time: Sat Feb 16 16:17:42 2013
4647 cnx sur 20s time: Sat Feb 16 16:17:45 2013


Mise à jour 30mn après le post :
** crawl-66-249-73-77.googlebot.com** 66.249.73.77
2 cnx sur 3s time: Sat Feb 16 16:56:15 2013
5708 cnx sur 20s time: Sat Feb 16 16:56:18 2013

Sachant que je limite pour les google bot à 200 requête par 20s, donc 20s plus tard il peut renvoyer 200 ... bon là 4647 !

Ci dessous les résultats (ne s'affiche ici que les IP dépassant un certain quota de cnx):

Code:
BLOCKED

** 130.117.119.210** 130.117.119.210
15 cnx sur 3s time: Sat Feb 16 15:40:46 2013
15 cnx sur 20s time: Sat Feb 16 15:40:43 2013
15 cnx sur 120s time: Sat Feb 16 15:40:43 2013

** nv5.netvibes.com** 193.189.143.27
5 cnx sur 3s time: Sat Feb 16 15:33:43 2013
15 cnx sur 20s time: Sat Feb 16 15:33:33 2013
15 cnx sur 120s time: Sat Feb 16 15:33:33 2013

** evo-hl21-1.gameservers.net** 62.212.73.211
2 cnx sur 3s time: Sat Feb 16 14:10:26 2013
4 cnx sur 20s time: Sat Feb 16 14:10:21 2013
171 cnx sur 120s time: Sat Feb 16 14:10:29 2013

** 130.117.119.242** 130.117.119.242
20 cnx sur 3s time: Sat Feb 16 15:07:42 2013
20 cnx sur 20s time: Sat Feb 16 15:07:39 2013
20 cnx sur 120s time: Sat Feb 16 15:07:39 2013

** 130.117.119.243** 130.117.119.243
20 cnx sur 3s time: Sat Feb 16 15:40:56 2013
20 cnx sur 20s time: Sat Feb 16 15:40:52 2013
20 cnx sur 120s time: Sat Feb 16 15:40:52 2013


AUTHORIZED

** crawl-66-249-75-102.googlebot.com** 66.249.75.102
1 cnx sur 3s time: Sat Feb 16 13:44:29 2013
1 cnx sur 20s time: Sat Feb 16 13:44:29 2013

** 66.249.81.135** 66.249.81.135
2 cnx sur 3s time: Sat Feb 16 15:25:13 2013
2 cnx sur 20s time: Sat Feb 16 15:25:13 2013

** injr-spdrproxy2.bloomberg.com** 69.191.249.202
1 cnx sur 3s time: Sat Feb 16 15:45:00 2013
1 cnx sur 20s time: Sat Feb 16 15:45:00 2013

** crawl-66-249-73-77.googlebot.com** 66.249.73.77
1 cnx sur 3s time: Sat Feb 16 15:47:51 2013
3859 cnx sur 20s time: Sat Feb 16 15:47:51 2013

** injr-spdrproxy1.bloomberg.com** 69.191.249.201
5 cnx sur 3s time: Sat Feb 16 15:47:02 2013
5 cnx sur 20s time: Sat Feb 16 15:47:02 2013

** crawl-66-249-76-102.googlebot.com** 66.249.76.102
1 cnx sur 3s time: Sat Feb 16 15:42:08 2013
1 cnx sur 20s time: Sat Feb 16 15:42:08 2013

** crawl-66-249-75-91.googlebot.com** 66.249.75.91
1 cnx sur 3s time: Sat Feb 16 14:58:03 2013
1 cnx sur 20s time: Sat Feb 16 14:58:03 2013
 
WRInaute passionné
bonjour,

très mauvaise idée je pense de faire cela, rien de tel que les moteurs de recherche qui crawlent le site, peu importe le nombre, la fréquence !
 
WRInaute discret
Je confirme, le mieux est de faire un blocage des autres bots autre que les moteurs de recherche.

mais pour Google etc ....non, change de serveur afin de pouvoir supporter ces charges
 
WRInaute accro
Il faut d'abord attendre un peu voir si c'est permanent ou non. Et il me semble que via GWT il existe la possibilité de régler la fréquence de crawl, non ?
Sinon, tu peux mettre en place un filtrage (et non une exclusion) via htaccess.
 
WRInaute accro
Re: GoogleBot : "Attaque" en rêgle ...

Ce sont des appels de pages ou des hits ?
Ça me parait énorme, 4k pages en 20 secondes...
 
Discussions similaires
Haut