Le Petit PR Illustré
8 messages
• Page 1 sur 1
Consultez la formation sur les stratégies de liens de WebRankInfo / Ranking Metrics
- spidetra
- WRInaute passionné

- Messages: 1500
- Inscription: 7 Juil 2003
Le Petit PR Illustré
Salut à tous,
Voici une petite expérience pour illustrer le PR autrement que par une formule mathématique.
En simplifiant, dans un monde sans référenceur et sans spammeur, le PR représente la probabilité de tomber sur une url en surfant sur le web au hasard.
J'ai donc simulé un surf au hasard sur 122.036 urls, normalement je devrais tombé rapidement sur les noms de domaines ayant des PR très important.
Métgodologie :
1. Récupération du rdf de DMoz
2. Extraction au hasard d'une 1 url / 30.000 dans la base => 172 urls comme point de départ du crawl.
3. 2° crawl : extraction de 1.000 urls parmis toutes les nvles urls détectées lors du premier craw.
4. 3° crawl : 1.000 nvlls urls ( même méthodo que le 2° )
5. 4° crawl : crawl de toutes les urls détectés : 16.400 urls
6 Suite au 4° crawl : 130.464 urls de plus dans la base.
Il est évident que pour simuler le craw aléatoire, j'aurai du continuer à crawler uniquement des lots de 1.000 urls. Mais mon but initial n'est pas l'étude du PR.
A la fin, je me retrouve donc avec 5 lots d'urls :
- Lot 1 : 172 urls
- Lot 2 : 1.000 urls
- Lot 3 : 1.000 urls
- Lot 4 : 16.400 urls
- Lot 5 : 130.464 urls
Pour l'instant, je me suis juste amusé à regardé l'évolution du nombre de .fr dans mes lots.
- Lot 1 : 1 seul .fr
- Lot 4 : 2 .fr
dés le lot 5, c'est le festival des gros PR ( avec extension .fr tjrs ) :
- Cnil
- Aol
- Lycos
- Google.fr
- lemonde.fr
- zdnet.fr
- dell.fr
- free.fr
- inria, cnrs
- ebay
- sun
- cnet
- shopzilla
- sonymusic.fr
etc, etc....
En fait, dans le lot 5, on a 3 types d'url :
- Les très gros noms de domaine
- Les pages perso hébergés chez : free, lycos, aol, etc....
- Quelques domaines ( 4 ou 5 ) ayant un PR >= 5 : Ex : le site officiel de l'OL.
Je sais que cette expérience est ancedoctique et qu'elle n'apporte pas grand chose en terme de compréhension du ranking de Google.
En fait, l'objectif initial de mon crawl n'est pas l'étude du PR, mais de faire des graphes.
Voici une petite expérience pour illustrer le PR autrement que par une formule mathématique.
En simplifiant, dans un monde sans référenceur et sans spammeur, le PR représente la probabilité de tomber sur une url en surfant sur le web au hasard.
J'ai donc simulé un surf au hasard sur 122.036 urls, normalement je devrais tombé rapidement sur les noms de domaines ayant des PR très important.
Métgodologie :
1. Récupération du rdf de DMoz
2. Extraction au hasard d'une 1 url / 30.000 dans la base => 172 urls comme point de départ du crawl.
3. 2° crawl : extraction de 1.000 urls parmis toutes les nvles urls détectées lors du premier craw.
4. 3° crawl : 1.000 nvlls urls ( même méthodo que le 2° )
5. 4° crawl : crawl de toutes les urls détectés : 16.400 urls
6 Suite au 4° crawl : 130.464 urls de plus dans la base.
Il est évident que pour simuler le craw aléatoire, j'aurai du continuer à crawler uniquement des lots de 1.000 urls. Mais mon but initial n'est pas l'étude du PR.
A la fin, je me retrouve donc avec 5 lots d'urls :
- Lot 1 : 172 urls
- Lot 2 : 1.000 urls
- Lot 3 : 1.000 urls
- Lot 4 : 16.400 urls
- Lot 5 : 130.464 urls
Pour l'instant, je me suis juste amusé à regardé l'évolution du nombre de .fr dans mes lots.
- Lot 1 : 1 seul .fr
- Lot 4 : 2 .fr
dés le lot 5, c'est le festival des gros PR ( avec extension .fr tjrs ) :
- Cnil
- Aol
- Lycos
- Google.fr
- lemonde.fr
- zdnet.fr
- dell.fr
- free.fr
- inria, cnrs
- ebay
- sun
- cnet
- shopzilla
- sonymusic.fr
etc, etc....
En fait, dans le lot 5, on a 3 types d'url :
- Les très gros noms de domaine
- Les pages perso hébergés chez : free, lycos, aol, etc....
- Quelques domaines ( 4 ou 5 ) ayant un PR >= 5 : Ex : le site officiel de l'OL.
Je sais que cette expérience est ancedoctique et qu'elle n'apporte pas grand chose en terme de compréhension du ranking de Google.
En fait, l'objectif initial de mon crawl n'est pas l'étude du PR, mais de faire des graphes.
-

Photoshop user - WRInaute passionné

- Messages: 1040
- Inscription: 8 Déc 2004
Moi aussi, je veux voir le graphe 
8 messages
• Page 1 sur 1
Formation recommandée sur ce thème :
Formation Netlinking (liens et référencement) : apprenez ce qu'est réellement un bon lien pour le référencement et surtout comment en obtenir. Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.
Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.
Lectures recommandées sur ce thème :
- Le français algorithmique : le Petit Google Illustré.
- Le PageRank illustré
- annonce illustré?
- Adsense illustré
- Mon annuaire illustré : nouvelle technologie
- Avis sur Travelsfriends: Le guide de voyage illustré
- Nouvel annuaire illustré avec techno AJAX
- Visualiser à l'avance ces annonceurs en mode illustré ?
- tu es où annuaire yahoo? petit petit petit...
- Petit PR Noël : la chanson au Père Noël Google :-) - 23-12-2002
- Classement Interbrand 2006 : la percée de Google - 01-08-2006
- Comment protéger sa vie privée sur Internet - 05-05-2008
- Parts de marché des moteurs aux USA (Mai 2008) - 20-06-2008
- Google rachète eBook Technologies Inc. (ETI) - 13-01-2011
- Google rachète JotSpot, spécialiste du wiki - 31-10-2006
- Nuage de tags Wordle pour WebRankInfo - 29-04-2009
- Plein de chiffres incroyables sur Google Maps - 31-01-2009
Consultez la description détaillée des produits ou services de Google suivants : JotSpot
- Bilan du référencement Google
Cet outil vous donne un petit résumé de l'état de référencement de votre site dans Google. - Similarité et duplicate content
Cet outil vous permet de calculer la similarité entre 2 pages web. L'algorithme utilisé repose sur l'analyse des occurrences des mots (mais pas sur leur positionnement dans les pages). Google utilise cette notion à certains endroits dans son algorithme, mais de façon bien plus évoluée que ce petit outil... Avoir des pages trop similaires peut entraîner des problèmes d'indexation... Cet outil vous permettra peut-être de résoudre certains problèmes de contenus dupliqués.
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités





