Nouveaux Bots

Consultez la formation au REFERENCEMENT naturel Google de WebRankInfo / Ranking Metrics


kendos
WRInaute impliqué
WRInaute impliqué
 
Messages: 826
Inscription: 25 Jan 2003

Nouveaux Bots

Message le Sam Mar 01, 2003 0:00

Il semblerait que de nouveaux bots soient apparus dans les logs de certains internautes dans des classes d'adresses inconnues jusqu'a présents.

En faisant une petite étude à ce propos, j'ai pu constitué une liste assez exhaustive des différentes IP utilisées par Googlebot :

http://www.maxhoo.com/crawl.shtm

Quelques questions cependant :

- J'ai toujours été persuadé que crawlx.googlebot.com concernait la "Deep Craw" en opposition à crawlerx.googlebot.com pour le "Fresh Crawl" et que les classes d'IP étaient respectivement 216.239.46.* et 64.68.82.* Comme on peut le voir, il n'en est rien !

- Si l'on considère que ma liste est juste, il y a 2 anomalies pour "crawl7" et "crawl9" qui ont 29 et 21 IP dans leur plage, alors que toutes les autres en ont 20 ou 30. Etonnant de la part de Google ! Néanmoins, le total des bots égal 800. Pile !

- Pour les "crawler", on retrouve les 2 mêmes différences (29, 21) mais la plus grande question est : Ou est donc "crawler19" ?

Kendos
Maxhoo

Jocelyn
WRInaute impliqué
WRInaute impliqué
 
Messages: 564
Inscription: 6 Nov 2002

Message le Mer Mar 26, 2003 14:55

Je n'ai pas compris à quoi servaient les numéros de 1 à 30 présents dans la colonne de gauche. Est-ce lié aux noms des bots (crawlerx, x étant le numéro dans la colonne de gauche ?)
Je n'ai pas compris également pourquoi les plages d'adresses IP n'étaient pas regroupées. Mais peut-être la réponse à ma précédente question explique cette disposition.

Jocelyn


kendos
WRInaute impliqué
WRInaute impliqué
 
Messages: 826
Inscription: 25 Jan 2003

Message le Mer Mar 26, 2003 15:00

# veut dire numéro en anglais :wink:
Donc Crawl # 1 = crawl1.googlebot.com dont la plage d'adresse est de 216.239.46.1 à 216.239.46.30 et ainsi de suite...

Jocelyn
WRInaute impliqué
WRInaute impliqué
 
Messages: 564
Inscription: 6 Nov 2002

Message le Mer Mar 26, 2003 15:25

kendos a écrit:# veut dire numéro en anglais :wink:

Ca j'avais bien compris :)
kendos a écrit:Donc Crawl # 1 = crawl1.googlebot.com dont la plage d'adresse est de 216.239.46.1 à 216.239.46.30 et ainsi de suite...

Surprenant, je n'avais jamais imaginé que plusieurs adresses IP de crawlers Google avaient en fait le "même nom". Quel est le but ou la raison d'un tel regroupement de plusieurs IP sous le même nom ?

Je vais regarder mes logs une fois de plus pour repérer ça.

Merci pour les précisions, ça n'était pas clair (pour moi)

Jocelyn


hetzeld
WRInaute passionné
WRInaute passionné
 
Messages: 2209
Inscription: 2 Déc 2002

Message le Mer Mar 26, 2003 20:48

Jocelyn,

Voici une explication du "Round Robin" qui te permettra de comprendre comment plusieurs adresses IP peuvent avoir le même nom de host.

Si plusieurs adresses IP différentes sont associées au même nom de machine (ce qui peut arriver, par exemple dans le cas de services redondants), un serveur DNS donné renverra successivement la première, puis la deuxième et ainsi de suite jusqu'à la dernière, puis il reprendra du début. Ce mécanisme s'appelle le tourniquet (round-robin en anglais) et permet de faire une répartition de charge naturelle entre des machines différentes mais répondant au même nom (ce qui est donc transparent pour l'utilisateur).


Dan

Jocelyn
WRInaute impliqué
WRInaute impliqué
 
Messages: 564
Inscription: 6 Nov 2002

Message le Mer Mar 26, 2003 21:30

Merci Dan pour le rappel de la technique du Round-Robin, l'une des plus simples à mettre en oeuvre. Elle est d'ailleurs abordée dans le Guide sur l'URL rewriting. Ca explique le comment de ma question précédente.

Maintenant, pourquoi ? Là, je n'ai pas compris. On parle des crawlers de Google. Pour moi, que crawlerX vienne plein de fois sur mon site (avec différentes adresses IP), ou que ce soit une alternance de crawlerX, crawlerY et crawlerZ (chacun ayant une seule IP fixe) importe peu.

permet de faire une répartition de charge naturelle entre des machines différentes mais répondant au même nom (ce qui est donc transparent pour l'utilisateur).


Mais dans le cas des crawlers de Google, c'est à sens unique : ils contactent nos serveurs quand ils veulent, récupèrent le contenu et disparaissent.

Jocelyn (un webmaster décidément curieux)


Si vous avez aimé cette discussion, partagez-la sur vos réseaux sociaux préférés :

Formation recommandée sur ce thème :

Formation REFERENCEMENT naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.

Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.

Lectures recommandées sur ce thème :



Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 1 invité