Nombre maximal de pages indexables dans Google pour un site

WRInaute occasionnel
Je lance un nouveaux topic car je m'écarte grandement du sujet initial : https://www.webrankinfo.com/forum/viewt ... .htm#31710
Suede a dit:
Tu peux avoir autant de pages de référencées que d'url qui permettent d'accéder à tes pages.
Je ne suis pas d'accord avec ta formulation. Une pharse plus juste à mon sens serait : Tu peux avoir autant de pages de référencées qu'il existe de liens différent vers tes pages. En effet, un page accessible qui n'est jamais liée ne sera jamais indexée.

Jusque là tout le monde suit... alors je vais compliquer et vous exposer une de mes théories.

En effet, je suis persuader qu'il existe un nombre de page maximum indexable qui est fonction du PR. Voici les bases de ma théorie. J'ai fait pas mal de tests sur un PR4 avec environ 45000 pages indexées pour arriver a ces constatations

Je vais prendre ici comme postulat qu'il n'y a aucun deeplinks externe. C'est à dire que les pages pronfondes ont toutes des liens internes comme backlinks. Ca me permet de simplifier mon analyse tout en restant crédible. Avec ce postulat, le PR est diffusé vers les pages profondes sans qu'il y ait d'apport externe de PR.

Même si la barrière des 101K ou des 100 premiers liens pris en compte est contestée ( cf http://www.webmasterworld.com/forum3/13600.htm) il existe, je pense, un nombre maximun de liens pris en compte par google. Il est soit issu de limite physique ( taille d'un page ) ou logique ( nombre de liens ) voir d'un conséquence de la formule du PR à cause du seuil que j'introduit après.

De même, il existe un nombre maximum de liens suivis par google. Généralement on parle de niveaux de liens suivi par google depuis la racine car cette page a souvent le PR le plus élever. En fait, je pense que google ne suis que les liens qui transmettent un PR supérieur à un certain seuil. Les notions de distance par rapport à la racine n'a plus grand sens au vu du fonctionnement du PR. Ainsi, si l'on fait une chaine de page le PR diminue à chaque niveau jusqu'à ne plus atteindre le "seuil". J'avais à l'époque fait un test du Niveau de descente de Google.

Avec ces 2 facteur on en déduit qu'il existe un nombre maximum de pages indexables en fonction du PR d'un site. La formule simplifiée pourrait être de (nb de liens unique par page)^(niveau de descente)

Plus le nombre de lien par page augmente, plus le niveau de descente diminue car le PR se dillue très vite. Si on diminue le nombre de lein par page on profite beaucoup moins de l'exposant.

Je moyen d'avoir un maximum de pages indexée passe donc par une analyse très fine de la distribution du PR pour qu'il soit transmis jusque dans les feuilles de l'arborescence du site.

Les deeplinks auront donc pour effet de mieux diffuser le PR et probablement le nombre de page indexées mais cela sera au détriment du PR des pages moins profondes. Bref le PR est une ressource précieuse qu'il ne faut pas gaspillée.

Voilà, J'espère ne pas avoir été trop confus.
Merci de vos commentaires ou de vos opignions divergentes.

Mirgolth
 
Dernière édition par un modérateur:
WRInaute passionné
la première réflexion que j'ai par rapport à tout ça, est qu'à mon avis Qu'importe le nombre de liens par rapport à la page principale, google se réfère avant tout au page rank. J'ai des pages à des millénaires de la page principales et qui sont très bien référencés, tout simplement parce que d'autres sites ont trouvé cette page utile et l'ont linké. Cela montre que l'arborescence n'a pas d'influence sur le bottage d'une page mais sur la distribution du page rank, c'est vrai.
Quant au nombre limité de pages, je n'y crois pas vraiment, en imaginant par exemple que chaque page soit linké.
je pense que cette démonstration tombe à l'eau dans le sens où les backlinsk peuvent très bien provenir de l'extérieur même sur des pages"enfouies" dans le site.
 
WRInaute occasionnel
Mies Van der Rohe a dit:
Qu'importe le nombre de liens par rapport à la page principale, google se réfère avant tout au page rank.
Tout à fait d'accord. C'est que je dit ici :
Mirgolth a dit:
En fait, je pense que google ne suis que les liens qui transmettent un PR supérieur à un certain seuil. Les notions de distance par rapport à la racine n'a plus grand sens au vu du fonctionnement du PR
J'imagine cette notion de seuil car il est assez facile de montrer que google ne suis pas les liens à l'infini.

Mies Van der Rohe a dit:
Quant au nombre limité de pages, je n'y crois pas vraiment, en imaginant par exemple que chaque page soit linké.
Un lien ne suffit pas. Fait une chaine d'une dizaine de pages et tu constateras que Google ne suis pas la chaine mais s'arrete à un certain moment. La seule raison que je trouve est que le PR de la page n'est plus suffisant.

Mies Van der Rohe a dit:
je pense que cette démonstration tombe à l'eau dans le sens où les backlinsk peuvent très bien provenir de l'extérieur même sur des pages"enfouies" dans le site.
Je ne vois pas en quoi cela va à l'encontre de ce que je présente. Ces backlink ne font que "retarder" la pénurie de PR qui fais que certaines pages profondes ne seront plus suivie par google.

Mirgolth
 
WRInaute passionné
Un lien ne suffit pas. Fait une chaine d'une dizaine de pages et tu constateras que Google ne suis pas la chaine mais s'arrete à un certain moment. La seule raison que je trouve est que le PR de la page n'est plus suffisant.

quand je dis qoit linké ça peut être par un ou plusiers et d'autres part, et je le répète, si yahoo en page d'accueil te linke cette page au fin fond? D'ailleurs j'ai des pages à arborescence 7 qui sont très bien référencés. Mais pour lever une parenthèses un site qui a des telles pages, n'a pas une très bonne structure.
quelques astuces : plan de site, news, spotlight...
 
Olivier Duffez (admin)
Membre du personnel
Mies Van der Rohe a dit:
la première réflexion que j'ai par rapport à tout ça, est qu'à mon avis Qu'importe le nombre de liens par rapport à la page principale, google se réfère avant tout au page rank. J'ai des pages à des millénaires de la page principales et qui sont très bien référencés, tout simplement parce que d'autres sites ont trouvé cette page utile et l'ont linké. Cela montre que l'arborescence n'a pas d'influence sur le bottage d'une page mais sur la distribution du page rank, c'est vrai.
Quant au nombre limité de pages, je n'y crois pas vraiment, en imaginant par exemple que chaque page soit linké.
je pense que cette démonstration tombe à l'eau dans le sens où les backlinsk peuvent très bien provenir de l'extérieur même sur des pages"enfouies" dans le site.
Mirgolth avait justement précisé qu'à la base il analyse un site dont les liens entrant externes ne pointent que sur la page d'accueil. Dans ce cas, pour que les pages soient indexées, il faut effectivement bien analyser le maillage interne...
Sujet très intéressant bien sûr.
On pourrait aussi donner quelques exemples de couples PR (du nom de domaine) / nb de pages indexées par Google. Avis aux amateurs !
 
WRInaute passionné
Je ne suis pas d'accord avec ta formulation. Une pharse plus juste à mon sens serait : Tu peux avoir autant de pages de référencées qu'il existe de liens différent vers tes pages. En effet, un page accessible qui n'est jamais liée ne sera jamais indexée.

Oui, c'est ce que je voulais dire.
Le potentiel de pages indexées correspond au page qui sont trouvables par google.

François
 
WRInaute passionné
WebRankInfo a dit:
On pourrait aussi donner quelques exemples de couples PR (du nom de domaine) / nb de pages indexées par Google. Avis aux amateurs !

Ok. Olivier je me lance.

1° domaine
PR : 3 (page d'accueil)
PR : 2 (pages interne) varie en fct des pages bien sur (j'ai pris le max)
Nombres de pages dans Google : 114
% de pages indexées : 99,13%
Petit PR. Peu de pages. Peu de maj (quasiment rien depuis plus d'un an). 100% d'indexation.

2° domaine
PR : 4 (page d'accueil)
PR : 3 (pages interne) varie en fct des pages bien sur (j'ai pris le max)
Nombres de pages dans Google : 115
% de pages indexées : 100%
Petit PR. Peu de pages. Peu de maj (quasiment rien depuis plus d'un an). 100% d'indexation.

3° domaine.
PR : 5 (page d'accueil)
PR : 4 (pages interne) varie en fct des pages bien sur (j'ai pris le max)
Nombres de pages dans Google : 5230
% de pages indexées : ??????

4° domaine.
PR : 2 (page d'accueil)
PR : 2 (pages interne) varie en fct des pages bien sur (j'ai pris le max)
Nombres de pages dans Google : 2700 :!:
% de pages indexées : ??????

Le 4° domaine est particulièrement significatif.
UN PR très faible, un nombre de pages indexés très important.

AMHA, il n'existe pas de corrélation entre le PR et le nombre de pages indexées.
Il doit exister une corrélation entre le PR et la fréquence de crawl de Google, entre le PR et le ranking.
a+,
--
Philippe
 
WRInaute occasionnel
Mies Van der Rohe a dit:
En fait je vois pas vraiment l'intérêt de connaître le nombre de pages indexées limitées à son propre site ??
En fais tout à commencer quand , un matin j'ai voulu indexé un nombre de page très important. J'ai pensé faire un structure de site sous forme d'arbre n-aire. Chaque page de même niveau a donc le même PR. Je m'attendais donc à ce que Google crawl le site de manière exponentiel le nombre de page du niveau x étant de x^n. J''ai été étonné de constaté que Google ne crawlait pas toutes les pages.
Si je diminuais n ( le nombre de lien par page ) alors x ( niveau de liens suivis ) augementais et finalement x^n ne variait pas tant que ça. x dépend du PR.

On a donc:
nombre de lien suivi pargoogle = x = f(PR)
nombre moyen de liens par page = n
nombre de page moyen indexable qui tourne au alentour de x^n

* Ca dépent de la structure du site mais j'essayes de généraliser

Je ne dis pas qu'il y a une limite de nombre de page par domaine mais simplement le PR s'épuise au fur et à mesure des liens et que toutes les pages d'un gros site ne peuvent pas être indexée.

J'ai pris comme point de départ le fait que les lien externe ne se font que sur la page d'accueil pour shématiser. Les liens peuvent très bien se faire sur des page internes. C'est aussi pour ne pas avoir l'arguement "ma page de niveau y est bien indexée grace à un lien externe" Il n'y a pas de différence netre liens externes et internes mais les liens externe ne sont pas controllables à la différence des liens internes.

J'ai lancé se sujet en pensant par exemple aux sites avec de gros forums :roll: et en me demandant l'effet d'un nombre de pages massive sur le PR.

Aujourd'hui un PR4 (proche 5 car il vient est redescendu le mois dernier) à 43500 pages indexée ( ça varie suivi les datacenter et le jour)

Pour répondre à Mies, pourquoi vouloir indexé beaucoup de pages : juste pour voir. Mais je pense que certains site avec des millions de références doivent aujourd'hui prendre en compte qu'indexé un très grand nombre de pages n'est pas si facile que ça. Le fait qu'il existe une chaine de liens depuis la page d'accueil ne suffit pas.

Mirgolth
 
WRInaute passionné
la je suis tout à fait d'acord.
A mon avis la meilleure manière de référencer un gros site est de le considérer comme une multitude de sites, donc une multitude de pages index.
 
WRInaute discret
Juste une remarque comme ca...

Le PR est calculé APRES le crawlage du site. Donc... Si le nombre de page indexé depend du PR alors cela nous ammene a la supposition que Google supprime des pages indexé comptant pour le calcul du PR.

Le Serpent se mord la queue.. La. Dans ce cas comment Google choisi les pages à supprimer ? Cela deviens un casse tête Googlien ca!

Personnelement je pense que chez googlei ls vont au plus simple. Ils indexes et puis voila :)
 
Discussions similaires
Haut