Etude statistique de la structure du web (Laboratoire LRDE)

Consultez la formation au REFERENCEMENT naturel Google de WebRankInfo / Ranking Metrics


WebRankInfo
Administrateur du site
Administrateur du site
 
Messages: 19415
Inscription: 19 Avr 2002

Etude statistique de la structure du web (Laboratoire LRDE)

Message le Lun Fév 20, 2006 12:18

Sylvain Peyronnet, chercheur au LRDE (laboratoire de Recherche et développement de l'EPITA) et l'un de ses étudiants : Johan Oudinet, travaillent sur l'analyse statistique de la structure du web, et viennent de publier une première partie de leurs résultats.

Franco
WRInaute impliqué
WRInaute impliqué
 
Messages: 812
Inscription: 2 Oct 2004

Message le Lun Fév 20, 2006 12:43

Bonjour,

Intéressant.

Mais au passage, sur votre site, sur la page d'accueil, vous écrivez :
"Ce cite". Hum, à corriger,... en "Ce site", il me semble.


PS : je fais aussi des fautes. Donc,.... 8)


yazerty
WRInaute passionné
WRInaute passionné
 
Messages: 1682
Inscription: 19 Juin 2005

Message le Lun Fév 20, 2006 13:18

Intéressant, mais quelques explications et analyses supplémentaires ne feraient pas de mal :).


Mumuri
WRInaute passionné
WRInaute passionné
 
Messages: 1800
Inscription: 3 Nov 2004

Message le Lun Fév 20, 2006 13:31

une question "fraction of pages" correspond bien à "nombre de pages" ?? y'a t'il une nuance? les chiffres à virgules çà fait bizarre

lien sortant
au niveau de la page suivante
http://sylvain.berbiqui.org/web-statist ... degree.htm
elle montre bien une façon de représenter le phénoméne de farm link ?
Image


lien entrant
au niveau de cette page
http://sylvain.berbiqui.org/web-statist ... degree.htm
Image
- je n'arrive pas à bien comprendre ce qui est appelé du spam ?, est qu'une page qui a trop de liens entrant est considéré comme spam ? si oui, c'est assez bizarre car le nom de domaine aura forcément plus de liens entrant que les pages à l'intérieur du site.

- "nombre de pages qui reçoivent un nombre x de liens",

si on lit sur le graph, si 1 * 10 ^ -5 pages recoivent 1000 liens, alors c'est du spam ? si on ramene à une page, ca fait 100 000 000 liens, donc j'en conclue que je dois me tromper. :?

- apparement la notion de pages et de sites est bien marqué ? est ce que les deux premiéres pages in_degree et out_degree correspondent à un nombres de pages par rapport à un site ou a un nombre de pages globales ?

profondeur de site

Image

est ce que le pic en x=1, c'est pour dire que beaucoup de sites ont une faible profondeur ? est ce que çà correspond à ces sites type "site vitrine" qui présente juste les activités d'une société ?

pourquoi il ya t'il un pic pour une profondeur de 7 ? est ce que ca correspond à un type particulier de site , genre un site qui inclue un lien vers un forum?

Sylvain.P
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 3
Inscription: 18 Fév 2006

Message le Lun Fév 20, 2006 14:57

Mumuri a écrit:une question "fraction of pages" correspond bien à "nombre de pages" ?? y'a t'il une nuance? les chiffres à virgules çà fait bizarre


Non, c'est reellement de la fraction du nombre de pages dont on parle (la proportion par rapport à 1).

Mumuri a écrit:lien sortant
au niveau de la page suivante
http://sylvain.berbiqui.org/web-statist ... degree.htm
elle montre bien une façon de représenter le phénoméne de farm link ?


Oui, on a une anomalie statistique avec une proportion non négligeable de pages qui ont beaucoup plus de liens sortants que le "bloc" de pages correspondant (c'est à dire le bloc de même taille).

Mumuri a écrit:lien entrant
au niveau de cette page
http://sylvain.berbiqui.org/web-statist ... degree.htm
Image
- je n'arrive pas à bien comprendre ce qui est appelé du spam ?, est qu'une page qui a trop de liens entrant est considéré comme spam ? si oui, c'est assez bizarre car le nom de domaine aura forcément plus de liens entrant que les pages à l'intérieur du site.


Ce n'est pas a proprement parler du spam, mais probablement une page qui beneficie de trop de liens pour etre honnete, grosso modo cela peut etre une page qui beneficie des liens du link farm, mais cela peut etre aussi une anomalie statistique.

Mumuri a écrit:- "nombre de pages qui reçoivent un nombre x de liens",

si on lit sur le graph, si 1 * 10 ^ -5 pages recoivent 1000 liens, alors c'est du spam ? si on ramene à une page, ca fait 100 000 000 liens, donc j'en conclue que je dois me tromper. :?


C'est une proportion du crawl total, avec 50 millions de pages dans le crawl, cela fait 500 pages qui recoivent 1000 liens.



Mumuri a écrit:profondeur de site

Image

est ce que le pic en x=1, c'est pour dire que beaucoup de sites ont une faible profondeur ? est ce que çà correspond à ces sites type "site vitrine" qui présente juste les activités d'une société ?

pourquoi il ya t'il un pic pour une profondeur de 7 ? est ce que ca correspond à un type particulier de site , genre un site qui inclue un lien vers un forum?


Le pic en 1 c 'est parce que la plupart des sites ont une profondeur quasi nulle, le pic à 7, j'en ignore totalement la raison, c'est peut etre une particularité de notre échantillon. On va regarder les sites de l'echantillon (enfin les pluis marquants) pour voir ce qu'il en est.


Mumuri
WRInaute passionné
WRInaute passionné
 
Messages: 1800
Inscription: 3 Nov 2004

Message le Lun Fév 20, 2006 19:22

tout d'abord, merci pour vos réponses

au sujet de

Ce n'est pas a proprement parler du spam, mais probablement une page qui beneficie de trop de liens pour etre honnete, grosso modo cela peut etre une page qui beneficie des liens du link farm, mais cela peut etre aussi une anomalie statistique.


je ne suis pas tout à fait d'accord

en effet, d'abord pour un site, le nom de domaine aura forcément plus de liens que les pages intérieurs du site

de plus, si l'on parle d'une page à l'intérieur d'un site qui aurait plus de liens que la normal, il peut s'agir par exemple du page, ou une personne aurait mis une "vidéo drole", vidéo qui aurait fait le tour des blogs et qui aurait alors reçu un grand nombre de lien entrant, on ne peut pas vraiment parler de spam. Un autre exemple, souvent pour télécharger un logiciel, les gens mettent directement la page de téléchargement ce qui fait que celle ci a plus de liens entrants, on ne peut pas parler de spam là nn plus.

de plus, qui aurai intéret a valoriser plus une page à l'intérieur de son site que le site complet ??

Sylvain.P
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 3
Inscription: 18 Fév 2006

Message le Lun Fév 20, 2006 19:34

Oui, mais la ou je dis que c'est bizarre, c'est que cette page n'est pas seule, un point sur la courbe represente plusieurs centaines de pages : par exemple le point isolé le plus haut represente un paquet d'environ 1000 pages. Après je ne dis pas que cela ne peut pas arriver, je dis juste que cela dévie du comportement statistique moyen.

Guendalf
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 1
Inscription: 28 Juin 2004

Message le Mar Fév 21, 2006 8:57

Bonjour, je suis Johan Oudinet (l'etudiant qui a travaille avec Sylvain Peyronnet sur la realisation de ces stats).

Mumuri a écrit:- apparement la notion de pages et de sites est bien marqué ? est ce que les deux premiéres pages in_degree et out_degree correspondent à un nombres de pages par rapport à un site ou a un nombre de pages globales ?


"fraction of pages" correspond au nombre de pages total (donc pas par site)

Mumuri a écrit:en effet, d'abord pour un site, le nom de domaine aura forcément plus de liens que les pages intérieurs du site


Les stats ne sont pas faites par rapport a un site (cf plus haut), donc meme si ce que tu dis est vrai ce n'est pas ce qui est constate par ce graphique.
Tes exemples sont aussi exactes d'un point de vue local (par rapport a un site), mais ici il s'agit d'une etude globale. Pour te faire une idee, considere que seul la page la plus valorisee a l'interieur de chaque site est representee.

Mumuri a écrit:de plus, qui aurai intéret a valoriser plus une page à l'intérieur de son site que le site complet ??


La je ne suis pas d'accord avec toi. Ca depend du site, mais en general on prefererai que les gens arrivent sur la page d'index du site, donc qu'elle soit plus valorisee que les autres pages.


Mumuri
WRInaute passionné
WRInaute passionné
 
Messages: 1800
Inscription: 3 Nov 2004

Message le Mar Fév 21, 2006 12:48

tout d'abord, merci de tes réponses


Guendalf a écrit:
Mumuri a écrit:en effet, d'abord pour un site, le nom de domaine aura forcément plus de liens que les pages intérieurs du site


Les stats ne sont pas faites par rapport a un site (cf plus haut), donc meme si ce que tu dis est vrai ce n'est pas ce qui est constate par ce graphique.
Tes exemples sont aussi exactes d'un point de vue local (par rapport a un site), mais ici il s'agit d'une etude globale. Pour te faire une idee, considere que seul la page la plus valorisee a l'interieur de chaque site est representee.

est ce que vous pensez faire une étude locale, qui aurait peut etre plus d'intêret dans la mesure ou il pourrait expliquer le comportement d'un moteur de recherche vis à vis de notre site ?


Guendalf a écrit:
Mumuri a écrit:de plus, qui aurai intéret a valoriser plus une page à l'intérieur de son site que le site complet ??


La je ne suis pas d'accord avec toi. Ca depend du site, mais en general on prefererai que les gens arrivent sur la page d'index du site, donc qu'elle soit plus valorisee que les autres pages.

quand je parle de page à l'intérieur du site, je parle de toutes les pages sauf la page d'accueil (désolé pour mon expression)


effisk
WRInaute impliqué
WRInaute impliqué
 
Messages: 612
Inscription: 18 Juin 2004

Message le Jeu Fév 23, 2006 1:16

Mumuri a écrit: quand je parle de page à l'intérieur du site, je parle de toutes les pages sauf la page d'accueil (désolé pour mon expression)
Et donc c'est plutôt site.com/ ou site.com/index.html la page d'accueil ? Parce que finalement ce n'est pas exactement la même chose... :P


Si vous avez aimé cette discussion, partagez-la sur vos réseaux sociaux préférés :

Formation recommandée sur ce thème :

Formation REFERENCEMENT naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.

Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.

Lectures recommandées sur ce thème :



Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 1 invité