Messages: 601

Enregistré le: 4 Sep 2004

Message le Sam Sep 04, 2004 19:09

Bonjour à tous,
Mon premier message !
Sur votre on parle beaucoup du 'page rank', il est bien indiqué qu'il va de 0 à 10, mais quelles sont les valeurs fréquentes ? Serait-il possible d'avoir (par Google ?) un histogramme : nombre de pages ou sites = f(page rank) ? Google attribue (aujourd'hui) à mon site un pr = 6, quelles sont les probas de faire mieux ?
Mais surtout comment se mesure-t-il ou se remarque-t-il dans la pratique ?
En posant la question dosages potentiométriques je suis à la 29ème place (ce n'est pas du tout mon sujet) un pr supérieur améliorera ce score pour ce type de questions complètement hors du sujet, hors du titre, hors des mots clefs et hors des descriptions ? Ou le pr se fera-t-il surtout ou uniquement sentir sur les mots clefs, les mots du titre, …. ?
Mon objectif = être bien placé en réponse à : 'consultant gestion des connaissances val d'oise' (ou en remplaçant gestion des connaissances par knowledge management, consultant par conseil). Le site que Google place juste en dessous est la copie (très peu différente) de mon site (dess-gla) sur Lycos, site de pr=4 et non référencé dans DMOZ !!!
Alors quid du pr ? quid de DMOZ ?
Haut
23 Réponses
Messages: 354

Enregistré le: 11 Avr 2004

Message le Sam Sep 04, 2004 20:53

Ben, on te fait 4 ou 5 liens avec 'consultant gestion des connaissances val d'oise' et tu devrais être rapidement premier :)

mais pour être honnête, je ne sais pas si cette requête est tapée plus d'une fois par an sur google....
Haut
Messages: 980

Enregistré le: 7 Mai 2004

Message le Sam Sep 04, 2004 21:13

Déjà je dirais que personne au monde à part toi va tapper consultant gestion des connaissances val d'oise sur google. Et maintenant que ca vient d'apparaitre 2 fois sur WRI, je pense que même si un individu venait a tapper ce genre de mot clés, ca serait WRI qui passerait en premier :wink: dans les résultats.

Bienvenue sur WRI :!:

Essaye de penser comme les gens qui aimeraient TOMBER sur ton site.
Modifié en dernier par PwetPwet le Sam Sep 04, 2004 21:14, modifié 1 fois.
Haut
Messages: 601

Enregistré le: 4 Sep 2004

Message le Sam Sep 04, 2004 21:14

C'est la compréhension de l'indexation / recherche et du classement des résultats qui m'intéresse ! Pas uniquement la place de mon site ! Je suis sur ce forum parce que le comment du résultat m'intéresse. (en essayant les requêtes indiquées mon site arrive en premier, mais ce n'est vraiment pas le premier but de ce type de site).
Haut
Messages: 980

Enregistré le: 7 Mai 2004

Message le Sam Sep 04, 2004 21:16

en essayant les requêtes indiquées mon site arrive en premier


quelles requêtes ?
Haut
Messages: 601

Enregistré le: 4 Sep 2004

Message le Sam Sep 04, 2004 21:19

PS encore : avec la simple requête 'connaissances' le site arrive (aujourd'hui) en premier ! Ce n'est quand même pas le seul à en parler !!!
Mais j'aimerais pouvoir décortiquer ce résulat !
Haut
Messages: 980

Enregistré le: 7 Mai 2004

Message le Sam Sep 04, 2004 21:27

Voila le genre de site que je citais hier encore dans un mail qui me demandait pourquoi les webmasters actuelles avaient la dent aussi longue. Ton site es sympa, existe depuis des lustres, le graphisme caca, mais tant qu'on a les résultas qu'on veut, on aime a y faire un lien, je serais tenté de te dire ne change rien, a par son acces aux personnes handicapées, ton PR bougera pas sauf dans le bon sens, et ecoute pas trop le requins de WRI, reste naturel, ca marche bien

Point de vue perso, même perso, c'est pas forcément appliqué :wink:
Haut
Messages: 601

Enregistré le: 4 Sep 2004

Message le Sam Sep 04, 2004 22:29

Avec le site : http://www.webmasterbrain.com/prog/ et des requêtes 'home' ,'the', … j'ai obtenu une partie de réponse à mes questions. Des sites avec un pr > 7, il n'y en a vraiment pas beaucoup. Un pr = 7, c'est le mieux qu'on puisse obtenir avec un site jeune ? Peut-on obtenir un graphique plus précis ? Où ?

Mais ce n'est qu'une partie du sujet. Quelle influence concrète ? (pour mon site, je ne suis pas intéressé par les résultats Google : ils ne conduisent que les étudiants en période de projet)
Un PR élevé favorise le positionnement pour toutes les requêtes ou pour celles portant sur les meta et le titre ? A lire votre site, les meta ne sont plus aussi importantes ?
La place dans les réponses aux requêtes est liée au nombre d'occurrences des mots de la requête dans le texte de la page, dans les metas, dans le titre, ou encore autre chose (la place de l'occurrence dans la page, dans les <h1>, …) ? Quand on lance une requête 'hébergeur gratuit', il n'y a pas d'analyse sémantique !
Haut
Messages: 11371

Enregistré le: 14 Oct 2002

Message le Sam Sep 04, 2004 23:02

Personne ne connait exactement l'alchimie pour sortir n°1 sur une requete. A un moment, il suffisait de se dire : " un petit PR7, le mot clé répété 3 millions de fois dans la page, un bon gros <title>, de bonnes grosses balises <h1>, des urls a la sauce -http://mot-clé.com en veux tu en voila et j'en passe. Maintenant, ca se passe plus comme ça, un petit PR3 peut passer devant une floppée de PR 5, on sait pas pourquoi ni comment :mrgreen:

Je connais une charmante personne qui se penche sur le "probleme" depuis le mois de Février et aux dernieres nouvelles, elle en est toujours aux "Tests et etudes de cas"..

D'autre part, je soupconne de plus en plus un changement dans la gestion des PR et des BL... en d'autres termes, pour ma part, je pense par exemple qu'obtenir un lien depuis une page a PR 10... ne vous donnera pas forcément un PR 9 ;-)

Voila voila.
Haut
Messages: 980

Enregistré le: 7 Mai 2004

Message le Sam Sep 04, 2004 23:11

Le PR, on oublie pour l'instant...

Dans le site en WWW sous mon post, tu tappes ca dans GG :

pr5
pr6
ou bien : pr7

c'est marant, j'aurais jamais pensé que quelqu'un viendrait avec ce genre de mot clé, mais pourtant c'est le booster de ce site... va comprendre

Heu, ton site est très bien, trouve un bon graphiste pôur t'aider mais ne change pas grand chose en fait
Haut
Messages: 601

Enregistré le: 4 Sep 2004

Message le Dim Sep 05, 2004 9:31

Je lance la requête sur Google (avec les quotes) :
"LAURENT Jean-Marc élimine votre part de risque"
Une seule réponse : mon site1 (PR de la page = 0)
(oui je sais le graphique est mauvais, mais des textes de ce site sont publiés ailleurs, c'est un des buts de ce type de site)
relancer la recherche en incluant les pages ignorées
Une deuxième réponse apparaît : mon site2 (PR de la page = 4 !!!, mais link: pour ainsi dire 0, ce site2 n'est pas sur DMOZ)
Le PR n'est pas à jour ? Les links sont plus importants ?
Haut
Messages: 4909

Enregistré le: 17 Aoû 2004

Message le Dim Sep 05, 2004 9:56

Bonjour ocsima,

Une seule réponse : mon site1 (PR de la page = 0)

si tu lis le PR sur la GGbar, le PR n'y a pas été remis à jour depuis plus de 2 mois ...

PR de la page = 4 !!!, link: pour ainsi dire 0

idem ... avec link : pour ainsi dire 0 ... ton PR n'est peut être plus de 4 ...

enfin il n'y a pas que le PR (loin s'en faut) pour juger de la pertinance d'une page sur une requète donnée ... :wink:

le référencement est une approche empirique (personne ne connait les algos), tous les webmasters qui contribuent à ce forum ont des expériences qu'ils mettent à disposition de tous, et c'est à chacun de faire sa cuisine (en dosant chacune des techniques) pour obtenir ses résultats ...

comme l'a dit mahé, énormément de paramètres sont pris en compte dans les algos de classement des pages ... il y a BL et BL (tous n'ont pas le même poids) et je ne crois pas qu'en analysant qq requètes tu arriveras à en sortir une quelconque règle ... :wink:

bon courage :wink:
Haut
Messages: 601

Enregistré le: 4 Sep 2004

Message le Dim Sep 05, 2004 14:19

Ce que j'aurais souhaité c'est le début d'une piste vers la même chose que ceci mais pour Google :
http://www.mail-archive.com/lucene-user ... 00060.html
> For the record, Lucene's scoring algorithm is, roughly:
> score_d = sum_t(tf_q*idf_t/norm_q * tf_d*idf_t/norm_d_t)
> where:
> score_d : score for document d
> sum_t : sum for all terms t
> tf_q : the square root of the frequency of t in the query
> tf_d : the square root of the frequency of t in d
> idf_t : log(numDocs/docFreq_t+1) + 1.0
> numDocs : number of documents in index
> docFreq_t : number of documents containing t
> norm_q : sqrt(sum_t((tf_q*idf_t)^2))
> norm_d_t : square root of number of tokens in d in the same
> field as t
Si quelqu'un a un début de piste …
Haut
Messages: 11371

Enregistré le: 14 Oct 2002

Message le Dim Sep 05, 2004 14:46

ocsima a écrit:> docFreq_t : number of documents containing t

interessant...
Haut
Messages: 601

Enregistré le: 4 Sep 2004

Message le Dim Sep 05, 2004 15:20

idf_t : log(numDocs/docFreq_t+1) + 1.0
Si t (dans la query) est un mot vide, il est partout, si au contraire t est trés spécifique, il n'apparaît que dans peu de documents dans l'index donc idf_t est important, donc le document d a une proba élevée de correspondre à la query.
Inutile de forcer sur un mot que personne n'utilise, mais justement personne ne le cherchera par hasard.
Haut
Messages: 601

Enregistré le: 4 Sep 2004

Message le Lun Sep 06, 2004 10:05

Mes conclusions sur ce court échange :
1 à partir de la question de l'utilisateur Google retrouve dans son index les pages pertinentes sélectionnées à l'aide d'une formule 'secrète' mais certainement du type que j'ai indiqué ci-dessus
2 inutile d'essayer de tricher en remplissant exagérément les balises meta
3 si votre page contient effectivement un rapport élevé du nombre d'occurrences des termes spécifiques de la question sur le nombre de mots total alors elle est sélectionnée : interviennent l'ordre, la, place du mot dans la page, les distances entre les mots, ...
4 le page rank : on ne sait pas exactement où et comment Google utilise cette notion mais il ressort que les links sont importants
Rappel. : les publications des étudiants chercheurs étaient évaluées (bien avant la naissance du Web) et les examinateurs détectaient facilement les liens (même les complexes ! je te cite A dans mon article, A cite B, B cite … , Z me cite). C'est encore plus facile pour Google et je ne sais pas où en est l'évaluation de l'échange de liens entre sites.
Haut
Messages: 9953

Enregistré le: 5 Mar 2003

Message le Lun Sep 06, 2004 10:39

donc, le mieux, c est que je te dise rien, que tu lui répètes mais surtout tu lui dit pas que c´est moi qui te l´ai dit, ok ?

La seule chose que l´on sait, c´est que l´on ne sait rien....!! :)
Haut
Messages: 4909

Enregistré le: 17 Aoû 2004

Message le Lun Sep 06, 2004 10:46

3 si votre page contient effectivement un rapport élevé du nombre d'occurrences des termes spécifiques de la question sur le nombre de mots total alors elle est sélectionnée : interviennent l'ordre, la, place du mot dans la page, les distances entre les mots, ...


ce n'est malheureusement pas aussi simple ... beaucoup de spameurs en ont fait les frais ... :wink:
Haut
Messages: 4909

Enregistré le: 17 Aoû 2004

Message le Lun Sep 06, 2004 10:48

La seule chose que l´on sait, c´est que l´on ne sait rien....!!

chuuuut ... fo pas l'dire ... :lol:
Haut
Messages: 601

Enregistré le: 4 Sep 2004

Message le Lun Sep 06, 2004 11:00

J'ai été un peu vite, je précise ce que voulais dire :
ocsima a écrit:3 si votre page contient effectivement un rapport élevé du nombre d'occurrences des termes spécifiques de la question sur le nombre de mots total alors elle est sélectionné.

Je pense qu'une petite analyse des phrases doit être possible pour Google : les phrases contiennent un verbe, un sujet, un complèment ? Sinon ...
Un remplissage de mots clefs est facilement détectable !
Donc il faut mettre du texte honnète.
Modifié en dernier par ocsima le Mar Sep 07, 2004 21:21, modifié 1 fois.
Haut
Messages: 4909

Enregistré le: 17 Aoû 2004

Message le Lun Sep 06, 2004 11:17

Un remplissage de mots clefs est facilement détectable !

oui, j'imagine que c'est vérifié ... :wink:

3 si votre page contient effectivement un rapport élevé du nombre d'occurrences des termes spécifiques de la question sur le nombre de mots total alors elle est sélectionné.

j'avais compris ce que tu voulais dire (tu parles de la densité de mots clés) ... mais le pb c'est de savoir :
- est ce qu'il y a une densité max au dela de laquelle c'est consideéré comme du spam ?
- est ce qu'il y a une densité optimale au delà de laquelle cela n'apporte plus rien (voire cela nuit) ?
- est ce que ces valeurs de densité sont les mêmes quelque soit le type de requète (cocurentielles, stratégiques, et je ne sais quels autres termes ont été utilisés sur les # forum) ?
comme je te disais précédemment ... beaucoup en parles ... peu le savent réellement ...
donc les gens expérimentent :wink:
Haut
Messages: 601

Enregistré le: 4 Sep 2004

Message le Lun Sep 06, 2004 11:53

Je vais parler un peu en termes de 'fuzzy reasoning', (c'est aussi plus prudent) :
Une analyse d'une grande série de textes (scientifiques, publicitaires) honnêtes et visiblement spam doit permettre de définir les ensembles honnête, douteux, et certainement spam. Ex : Les H1, LI, … peuvent ne pas être des phrases, mais les <p> si.
Il est alors possible à Google d'agréger les résultats des phrases, des pages, du site pour en déduire son attitude : attendre et laisser venir, punir, … attitudes qui seront modifiées.
Je ne pense pas que des petites bidouilles puissent lutter longtemps contre la puissance de calcul de Google et l'expérimentation peut coûter cher !
Haut
Messages: 4909

Enregistré le: 17 Aoû 2004

Message le Lun Sep 06, 2004 13:17

Je ne pense pas que des petites bidouilles puissent lutter longtemps contre la puissance de calcul de Google

d'accord avec toi, mais seulement lorsque cette puissance de calcul ne sera plus finie ...
aujourd'hui, google se trouve dans un contexte de traitements temps réel, avec une périodicité qui ne fait que réduire, un nombre de pages à traiter qui ne fait que croitre et une puissance de calcul (même distribuée) limitée ...
tout cela induit quelques contraintes sur le volume de traitement acceptable pour chaque page ... cela doit expliquer que google en soit réduit à qq compromis, tu ne crois pas ? :wink:
Haut
Messages: 601

Enregistré le: 4 Sep 2004

Message le Lun Sep 06, 2004 23:00

Je n'ai pas le temps de lire tous les nouveaux messages dans les différentes rubriques et d'écrire le mien, il y en a trop un peu partout ! mais qui se rapportent en fait à des sujets très similaires.
Disons que la puissance de Google est infinie par rapport à la taille des bidouilles (taille d'une semaine de travail, toutes les pages ne sont pas revues entièrement, le sujet est déjà défini, le gros travail n'est pas à faire à chaque visite)
Ton troisième point (seul à faire avec contrainte délai de réponse) je crois à la requête thématique (une seule question posée ou plusieurs de suite depuis la même machine) et … je ne voudrais pas me citer, mais une manière de progresser passe par les Thésaurus (dictionnaire hiérarchisé), Google en a les moyens en utilisant éventuellement DMOZ.
L'élimination (non prise en compte ?) des mots vides n'est pas toujours systématique. Pourquoi ?
Haut