Le deep crawl de GoogleBot sur WebRankInfo


WebRankInfo
Administrateur du site
Administrateur du site
 
Messages: 19415
Inscription: 19 Avr 2002

Le deep crawl de GoogleBot sur WebRankInfo

Message le Mar Nov 05, 2002 21:48

comme bcp de monde sans doute, le site WebRankInfo a la chance de recevoir beaucoup de visites, et pas seulement de vous :wink: ... d'un certain GoogleBot.
les visites viennent de plusieurs adresses IP, car GoogleBot est réparti sur un grand nombre de machines.
Les machines spécialisées dans le "deep crawl" (l'indexation intensive qui suit la fin de la Google Dance) sont celles provenant des adresses commençant par 216 (nom de domaine en crawlxx.googlebot.com) :
Code: Tout sélectionner
  216.239.46.100
  216.239.46.101
  216.239.46.102
  216.239.46.104
  216.239.46.105
  216.239.46.118
  216.239.46.12
  216.239.46.121
  216.239.46.124
  216.239.46.13
  216.239.46.133
  216.239.46.134
  216.239.46.140
  216.239.46.146
  216.239.46.147
  216.239.46.153
  216.239.46.164
  216.239.46.165
  216.239.46.166
  216.239.46.168
  216.239.46.171
  216.239.46.172
  216.239.46.173
  216.239.46.184
  216.239.46.19
  216.239.46.197
  216.239.46.204
  216.239.46.22
  216.239.46.220
  216.239.46.222
  216.239.46.223
  216.239.46.226
  216.239.46.23
  216.239.46.236
  216.239.46.27
  216.239.46.3
  216.239.46.30
  216.239.46.42
  216.239.46.43
  216.239.46.48
  216.239.46.60
  216.239.46.63
  216.239.46.66
  216.239.46.75
  216.239.46.76
  216.239.46.77
  216.239.46.82
  216.239.46.85
  216.239.46.86
  216.239.46.88
  216.239.46.90
  216.239.46.96
  216.239.46.98


tandis que les autres sont celles des crawlers "classiques" (l'indexation quotidienne), provenant des adresses commençant par 64 (nom de domaine en crawlerxx.googlebot.com)
Code: Tout sélectionner
  64.68.82.14
  64.68.82.18
  64.68.82.28
  64.68.82.38
  64.68.82.39
  64.68.82.47
  64.68.82.5
  64.68.82.57
  64.68.82.58
  64.68.82.6
  64.68.82.66
  64.68.82.67
  64.68.82.68
  64.68.82.69
  64.68.82.7
  64.68.82.70
  64.68.82.71
  64.68.82.74


Merci à Eservice et Fruge pour leur contribution à ces petites recherches :)
(voyez http://www.webrankinfo.com/forums/viewpost_3012.htm )
J'en profite pour vous rappeler que j'ai mis à jour GoogleStats, maintenant vous pouvez savoir aussi l'adresse IP de Googlebot lors de son passage.
http://www.webrankinfo.com/googlestats/

speedyop
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 18
Inscription: 5 Nov 2002

ameliorations

Message le Mer Nov 06, 2002 0:07

tiens une petit idée d'amelioration, pkoa ne pas crer un fichier special javascript contenant le code d'include de googlestats

<?php
include "/home/VOTRE_LOGIN/www/googlestats/admin/config.php";
include "/home/VOTRE_LOGIN/www/googlestats/googlestats.inc.php";
?>

ensuite il suffit d'inclure en javascript ce fichier

<script language=javascript src="rep/googlestats_js.php"></script>

?

sinon lors de la consultation faire un gethostbyaddr pour optenir ce fameux nom de serveur (numero de robot)

enfin je dit ca j'ai meme pas encore tester mais promis demain je l'install ;) (j'ai pas acces a mes serveurs de chez moi)


WebRankInfo
Administrateur du site
Administrateur du site
 
Messages: 19415
Inscription: 19 Avr 2002

Message le Mer Nov 06, 2002 7:56

pour le javascript, pourquoi pas, je vais essayer
pour le gethostbyaddr, je l'ai installé hier et je le rajouterai dans GoogleStats bientôt...

speedyop
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 18
Inscription: 5 Nov 2002

Message le Mer Nov 06, 2002 10:46

en fait l'idée du javascript serait que la page analysé n'a pas besoin d'etre en php, une simple page html suffirait, bien sur le serveur doit faire du php et il doit y avoir une base de donnée


WebRankInfo
Administrateur du site
Administrateur du site
 
Messages: 19415
Inscription: 19 Avr 2002

Re: ameliorations

Message le Sam Nov 09, 2002 21:07

speedyop a écrit:tiens une petit idée d'amelioration, pkoa ne pas crer un fichier special javascript contenant le code d'include de googlestats

<?php
include "/home/VOTRE_LOGIN/www/googlestats/admin/config.php";
include "/home/VOTRE_LOGIN/www/googlestats/googlestats.inc.php";
?>

ensuite il suffit d'inclure en javascript ce fichier

<script language=javascript src="rep/googlestats_js.php"></script>

?

C'est une bonne idée mais il reste à régler un dernier pb car dans ce cas l'adresse enregistrée est "rep/googlestats_js.php" ce qui n'a pas grand intérêt.

Ez4Me2KU|nonconnecte
 

Message le Mar Nov 12, 2002 19:15

Concernant ce dernier, il suffirait de logger getenv("HTTP_REFERER"), qui sera en l'occurence la page qui contient le code js.

A confirmer.


WebRankInfo
Administrateur du site
Administrateur du site
 
Messages: 19415
Inscription: 19 Avr 2002

Message le Mar Nov 12, 2002 19:34

ça semble marcher donc je vais l'intégrer à la prochaine version. on verra si plusieurs d'entre vous rencontrent des pb je reviendrai à la version actuelle.

c'est vrai que ça présente l'intérêt de marcher avec des pages .htm et pas seulement des .php


Si vous avez aimé cette discussion, partagez-la sur vos réseaux sociaux préférés :

Lectures recommandées sur ce thème :

Consultez la description détaillée des produits ou services de Google suivants : Googlebot

  • Calcul du taux de liens vers des pages internes
    Cet outil vous permet de calculer le taux de liens profonds vers un site web. Un lien profond est un lien qui ne pointe pas vers la page d'accueil mais au contraire vers une page interne du site. Les sites dont l'essentiel du référencement vient de leurs inscriptions dans des annuaires ont un taux de liens profonds faible ; à l'inverse, les sites de référence ont souvent un taux de liens profonds plus important, signe que leur contenu a suscité de nombreux liens spontanés.


Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 1 invité