Requete Wikia

 
boutdepapier
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 161
Inscription: Ven Aoû 04, 2006 17:32

Requete Wikia

Message le Mar Jan 15, 2008 18:33

Bonjour !

Comme tout le monde le sait wikia est sortit avec la possibilité d'afficher la requête pour comprendre le classement des sites.

Dans ma petite tête ça a fait ni une ni deux : comprendre une requête de moteur aidera au positionnement pour wikia mais aussi pour les autres moteurs (il y a forcément des idées communes). Aussi je propose que nous étudiions ensemble la requête "webrankinfo" dans wikia.

Les grandes lignes :
- En haut sont présentés les principales variables de la requête
- 137.71536 c'est le score du site webrankinfo pour la requête webrankinfo
- chaque "segment" de la requête renvois une note et toutes les notes sont additionnées pour le score finale

La requête tel que je l'ai récupérée :

Code: Tout sélectionner
    * segment = 20071226194036
    * digest = 6d1fa4ff7fc3f0563919b0e14b8f2484
    * url = http://www.webrankinfo.com/
    * title = Référencement Google, Yahoo!, MSN : actualité, forum, conseils - WebRankInfo créé par Olivier Duffez
    * tstamp = 20071226111536752
    * boost = 9.896881


137.71536 = (MATCH) sum of:

    * 4.1087103 = (MATCH) weight(url:webrankinfo in 706663), product of:
          o 0.3282512 = queryWeight(url:webrankinfo), product of:
                + 12.51697 = idf(docFreq=10)
                + 0.026224496 = queryNorm
          o 12.51697 = (MATCH) fieldWeight(url:webrankinfo in 706663), product of:
                + 1.0 = tf(termFreq(url:webrankinfo)=1)
                + 12.51697 = idf(docFreq=10)
                + 1.0 = fieldNorm(field=url, doc=706663)

    * 95.24577 = (MATCH) weight(anchor:webrankinfo^2.0 in 706663), product of:
          o 0.673205 = queryWeight(anchor:webrankinfo^2.0), product of:
                + 2.0 = boost
                + 12.835423 = idf(docFreq=7)
                + 0.026224496 = queryNorm
          o 141.48108 = (MATCH) fieldWeight(anchor:webrankinfo in 706663), product of:
                + 7.3484693 = tf(termFreq(anchor:webrankinfo)=54)
                + 12.835423 = idf(docFreq=7)
                + 1.5 = fieldNorm(field=anchor, doc=706663)

    * 1.9116732 = (MATCH) weight(content:webrankinfo in 706663), product of:
          o 0.28465176 = queryWeight(content:webrankinfo), product of:
                + 10.854423 = idf(docFreq=57)
                + 0.026224496 = queryNorm
          o 6.7158313 = (MATCH) fieldWeight(content:webrankinfo in 706663), product of:
                + 2.828427 = tf(termFreq(content:webrankinfo)=8)
                + 10.854423 = idf(docFreq=57)
                + 0.21875 = fieldNorm(field=content, doc=706663)

    * 15.905655 = (MATCH) weight(title:webrankinfo^1.5 in 706663), product of:
          o 0.5002706 = queryWeight(title:webrankinfo^1.5), product of:
                + 1.5 = boost
                + 12.717641 = idf(docFreq=8)
                + 0.026224496 = queryNorm
          o 31.794102 = (MATCH) fieldWeight(title:webrankinfo in 706663), product of:
                + 1.0 = tf(termFreq(title:webrankinfo)=1)
                + 12.717641 = idf(docFreq=8)
                + 2.5 = fieldNorm(field=title, doc=706663)

    * 20.543552 = (MATCH) weight(host:webrankinfo in 706663), product of:
          o 0.3282512 = queryWeight(host:webrankinfo), product of:
                + 12.51697 = idf(docFreq=10)
                + 0.026224496 = queryNorm
          o 62.584846 = (MATCH) fieldWeight(host:webrankinfo in 706663), product of:
                + 1.0 = tf(termFreq(host:webrankinfo)=1)
                + 12.51697 = idf(docFreq=10)
                + 5.0 = fieldNorm(field=host, doc=706663)


Chaque segment correspond à un critère : il y en a qui sont évidents d'autres moins.
Exemple avec le segment lié au titre :
Code: Tout sélectionner
    * 15.905655 = (MATCH) weight(title:webrankinfo^1.5 in 706663), product of:
          o 0.5002706 = queryWeight(title:webrankinfo^1.5), product of:
                + 1.5 = boost
                + 12.717641 = idf(docFreq=8)
                + 0.026224496 = queryNorm
          o 31.794102 = (MATCH) fieldWeight(title:webrankinfo in 706663), product of:
                + 1.0 = tf(termFreq(title:webrankinfo)=1)
                + 12.717641 = idf(docFreq=8)
                + 2.5 = fieldNorm(field=title, doc=706663)



Analyse : 15.90 c’est la moyenne des deux sous requêtes.
Première sous requête moyenne de trois sous requête :
- Indice de temps ( ??? je crois qu'il y a un lien la présence du fichier nutch-site.xml)
- Occurrence de Webrankinfo dans la page
- Normalisation ( ???)
Deuxième sous requête :
- le mot webrankinfo est présent dans le titre ?
- Occurrence du mot dans la page
- Normalisation ( ???)

Voilà pour la premiére brique. C’est un peu fastidieux mais à terme ça peut être une mine d’information !

(note : wikia est basé sur nutch basé sur Lucéne, le mieux pour avancer c'est http://lucene.apache.org/java/2_2_0/scoring.html et d'étudier la class java : Class Similarity)
Dernière édition par boutdepapier le Mar Jan 15, 2008 19:01, édité 1 fois.

Consultez la formation au référencement naturel Google de WebRankInfo / Ranking Metrics


WebRankInfo
Administrateur du site
Administrateur du site
 
Messages: 15356
Inscription: Ven Avr 19, 2002 20:51

Message le Mar Jan 15, 2008 18:55

je parlais aussi de ces formules dans mon actu sur wikia

boutdepapier
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 161
Inscription: Ven Aoû 04, 2006 17:32

Message le Mar Jan 15, 2008 20:03

Heu désolé de contredire encore (ça devient une habitude :) ) mais j'ai l'impression qu'au contraire l'algo se sert énormément du contenu de la page :
Par exemple la fonction idf (qu'on retrouve partout) est un match de la requête sur la page. Elle retourne un nombre qui est la somme des occurrences, pondérée par un logarithme, ex à la louche :
-une occurrence de la requête dans la page rapporte 2 points
- deux rapporte 3 points
- 3 rapporte 3,5
...

Mais c'est vrai que les critères du nom de domaine et des balises title me semblent avoir encore un peu trop de poids. Il manque aussi beaucoup sur la partie influences externes.

Je continuerais à étudier un peu la fonction demain !

domdom26
WRInaute passionné
WRInaute passionné
 
Messages: 625
Inscription: Mar Nov 09, 2004 7:59

Message le Mer Jan 16, 2008 10:22

intéressant !

boutdepapier
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 161
Inscription: Ven Aoû 04, 2006 17:32

Message le Mer Jan 16, 2008 11:43

Aujourd’hui, le temps de récupérer de la gueule de bois, je vais d’abord consolider ce que j’ai survolé trop légèrement hier, notamment la fonction idf(fonction inverse du terme recherché) et la fonction df (fonction de fréquence du terme recherché).

TF = nombre d’occurrence puissance 1/2. Donc croit, de façon amortie.
IDF = 1+log (NumDoc/ nombre d’occurrence +1)

(Déjà on comprend que je me suis allé trop vite hier, idf décroît légèrement plus la fréquence d’occurrence augmente mais le score final lui monte j’expliquerais plus tard)

Tiens une nouvelle inconnue, NumDocs ??? Ha, et c’est quoi ? Webrankinfo a obtenu ici 706663 ! Ouahou !!!
En fait numDocs c’est le nombre de document de l’index du site (je dirais plus un site est gros plus le nombre est important).

Premières conclusions :
- La taille d’un site influe sur son positionnement (NumDocs)
- Il faut que les mots clés présents dans vos titres soient aussi présents dans le corps du document HTML pour qu’ils soient plus « crédible ».
- Les metas et surtout les balises de titres ont du poids.

Tout ça est encore frêle mais ce n’est que le début :)

 

Modérateur: WebRankInfo

Formation recommandée sur ce thème :

Formation Référencement naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.

Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.

Lectures recommandées sur ce thème :



Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités