Le deep crawl de GoogleBot sur WebRankInfo
7 messages • Page 1 sur 1
-

WebRankInfo - Administrateur du site

- Messages: 15808
- Inscription: Ven Avr 19, 2002 19:51
Le deep crawl de GoogleBot sur WebRankInfo
comme bcp de monde sans doute, le site WebRankInfo a la chance de recevoir beaucoup de visites, et pas seulement de vous
... d'un certain GoogleBot.
les visites viennent de plusieurs adresses IP, car GoogleBot est réparti sur un grand nombre de machines.
Les machines spécialisées dans le "deep crawl" (l'indexation intensive qui suit la fin de la Google Dance) sont celles provenant des adresses commençant par 216 (nom de domaine en crawlxx.googlebot.com) :
tandis que les autres sont celles des crawlers "classiques" (l'indexation quotidienne), provenant des adresses commençant par 64 (nom de domaine en crawlerxx.googlebot.com)
Merci à Eservice et Fruge pour leur contribution à ces petites recherches
(voyez http://www.webrankinfo.com/forums/viewpost_3012.htm )
J'en profite pour vous rappeler que j'ai mis à jour GoogleStats, maintenant vous pouvez savoir aussi l'adresse IP de Googlebot lors de son passage.
http://www.webrankinfo.com/googlestats/
les visites viennent de plusieurs adresses IP, car GoogleBot est réparti sur un grand nombre de machines.
Les machines spécialisées dans le "deep crawl" (l'indexation intensive qui suit la fin de la Google Dance) sont celles provenant des adresses commençant par 216 (nom de domaine en crawlxx.googlebot.com) :
- Code: Tout sélectionner
216.239.46.100
216.239.46.101
216.239.46.102
216.239.46.104
216.239.46.105
216.239.46.118
216.239.46.12
216.239.46.121
216.239.46.124
216.239.46.13
216.239.46.133
216.239.46.134
216.239.46.140
216.239.46.146
216.239.46.147
216.239.46.153
216.239.46.164
216.239.46.165
216.239.46.166
216.239.46.168
216.239.46.171
216.239.46.172
216.239.46.173
216.239.46.184
216.239.46.19
216.239.46.197
216.239.46.204
216.239.46.22
216.239.46.220
216.239.46.222
216.239.46.223
216.239.46.226
216.239.46.23
216.239.46.236
216.239.46.27
216.239.46.3
216.239.46.30
216.239.46.42
216.239.46.43
216.239.46.48
216.239.46.60
216.239.46.63
216.239.46.66
216.239.46.75
216.239.46.76
216.239.46.77
216.239.46.82
216.239.46.85
216.239.46.86
216.239.46.88
216.239.46.90
216.239.46.96
216.239.46.98
tandis que les autres sont celles des crawlers "classiques" (l'indexation quotidienne), provenant des adresses commençant par 64 (nom de domaine en crawlerxx.googlebot.com)
- Code: Tout sélectionner
64.68.82.14
64.68.82.18
64.68.82.28
64.68.82.38
64.68.82.39
64.68.82.47
64.68.82.5
64.68.82.57
64.68.82.58
64.68.82.6
64.68.82.66
64.68.82.67
64.68.82.68
64.68.82.69
64.68.82.7
64.68.82.70
64.68.82.71
64.68.82.74
Merci à Eservice et Fruge pour leur contribution à ces petites recherches
(voyez http://www.webrankinfo.com/forums/viewpost_3012.htm )
J'en profite pour vous rappeler que j'ai mis à jour GoogleStats, maintenant vous pouvez savoir aussi l'adresse IP de Googlebot lors de son passage.
http://www.webrankinfo.com/googlestats/
ameliorations
tiens une petit idée d'amelioration, pkoa ne pas crer un fichier special javascript contenant le code d'include de googlestats
<?php
include "/home/VOTRE_LOGIN/www/googlestats/admin/config.php";
include "/home/VOTRE_LOGIN/www/googlestats/googlestats.inc.php";
?>
ensuite il suffit d'inclure en javascript ce fichier
<script language=javascript src="rep/googlestats_js.php"></script>
?
sinon lors de la consultation faire un gethostbyaddr pour optenir ce fameux nom de serveur (numero de robot)
enfin je dit ca j'ai meme pas encore tester mais promis demain je l'install
(j'ai pas acces a mes serveurs de chez moi)
<?php
include "/home/VOTRE_LOGIN/www/googlestats/admin/config.php";
include "/home/VOTRE_LOGIN/www/googlestats/googlestats.inc.php";
?>
ensuite il suffit d'inclure en javascript ce fichier
<script language=javascript src="rep/googlestats_js.php"></script>
?
sinon lors de la consultation faire un gethostbyaddr pour optenir ce fameux nom de serveur (numero de robot)
enfin je dit ca j'ai meme pas encore tester mais promis demain je l'install
-

WebRankInfo - Administrateur du site

- Messages: 15808
- Inscription: Ven Avr 19, 2002 19:51
pour le javascript, pourquoi pas, je vais essayer
pour le gethostbyaddr, je l'ai installé hier et je le rajouterai dans GoogleStats bientôt...
pour le gethostbyaddr, je l'ai installé hier et je le rajouterai dans GoogleStats bientôt...
-

WebRankInfo - Administrateur du site

- Messages: 15808
- Inscription: Ven Avr 19, 2002 19:51
Re: ameliorations
speedyop a écrit:tiens une petit idée d'amelioration, pkoa ne pas crer un fichier special javascript contenant le code d'include de googlestats
<?php
include "/home/VOTRE_LOGIN/www/googlestats/admin/config.php";
include "/home/VOTRE_LOGIN/www/googlestats/googlestats.inc.php";
?>
ensuite il suffit d'inclure en javascript ce fichier
<script language=javascript src="rep/googlestats_js.php"></script>
?
C'est une bonne idée mais il reste à régler un dernier pb car dans ce cas l'adresse enregistrée est "rep/googlestats_js.php" ce qui n'a pas grand intérêt.
- Ez4Me2KU|nonconnecte
Concernant ce dernier, il suffirait de logger getenv("HTTP_REFERER"), qui sera en l'occurence la page qui contient le code js.
A confirmer.
A confirmer.
-

WebRankInfo - Administrateur du site

- Messages: 15808
- Inscription: Ven Avr 19, 2002 19:51
ça semble marcher donc je vais l'intégrer à la prochaine version. on verra si plusieurs d'entre vous rencontrent des pb je reviendrai à la version actuelle.
c'est vrai que ça présente l'intérêt de marcher avec des pages .htm et pas seulement des .php
c'est vrai que ça présente l'intérêt de marcher avec des pages .htm et pas seulement des .php
7 messages • Page 1 sur 1
Lectures recommandées sur ce thème :
- Le Full Crawl a enfin commencé
- Etude de Googlebot, le robot crawler de Google (Fresh Bot, Deep Bot)
- Googlebot, le robot d'indexation de Google
- La vie d'une page sur le web : Fresh Crawl, Deep Crawl, Google Dance
- La danse de Googlebot :-) La Google Dance
- Le début du full crawl
- Présentation de l'indexation Google - Googlebot, le robot de Google
- Configurer les options de passage de Googlebot sur son site
- Début du Full Crawl
- Etude de Googlebot, le robot d'indexation de Google
- Altavista deep crawl ?
- Yahoo et son deep crawl inutile!
- Deep crawl de google aux USA
- Le fresh-deep crawl c'est partiiiii !
- Temps maximum entre deep crawl et apparitions des pages ?
- On dirait que le deep crawl c'est commencer chez les amerlok
- différence entre crawl.googlebot et crawler.googlebot ?
- "Deep Crawl" ou "Fresh Crawl"
Consultez la description détaillée des produits ou services de Google suivants : Googlebot
- Calcul du taux de liens vers des pages internes
Cet outil vous permet de calculer le taux de liens profonds vers un site web. Un lien profond est un lien qui ne pointe pas vers la page d'accueil mais au contraire vers une page interne du site. Les sites dont l'essentiel du référencement vient de leurs inscriptions dans des annuaires ont un taux de liens profonds faible ; à l'inverse, les sites de référence ont souvent un taux de liens profonds plus important, signe que leur contenu a suscité de nombreux liens spontanés.
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités

le forum