L'algorithme de Google devoilé ?

Olivier Duffez (admin)
Membre du personnel
en fait je ne vous avait pas prévenus, mais ils se sont occupés d'analyse la liste des critères utilisés par Google : https://www.webrankinfo.com/dossiers/conseils/algos-google :)

pour l'instant rien (ou pas grand chose) n'a été révélé... ce qui est étonnant c'est que ces 2 ingénieurs soient si sûrs d'eux, alors qu'ils ont analysé Google comme une boite noire, à un instant T donné. Et tout le monde sait que Google adapte son algo assez souvent !

ce qui est intéressant c'est que ça va effectivement peut-être faire bouger les choses, et surtout les idée reçues.

affaire à suivre !
 
WRInaute passionné
WebRankInfo a dit:
en fait je ne vous avait pas prévenus, mais ils se sont occupés d'analyse la liste des critères utilisés par Google :)

pour l'instant rien (ou pas grand chose) n'a été révélé... ce qui est étonnant c'est que ces 2 ingénieurs soient si sûrs d'eux, alors qu'ils ont analysé Google comme une boite noire, à un instant T donné. Et tout le monde sait que Google adapte son algo assez souvent !
Mais dans le même temps, les changements ne peuvent être trop brutal. Si le classement changait tout d'un coup, cela mettrait en cause la significance des résultats de Google avant le changement et donc dans l'avenir. Donc a priroi, il est probable qu'ils aient pu avoir les grands principes de Google. De toute façon, avoir le détail est impossible vu que Google ne diffuse tous les liens d'un site.


Si on regarde de manière qualitative les résultats qu'ils ont eu:
DMOZ: critere principal: plausible car c'est une des sources objectives qui permet de classer un site. Ca confirme pas mal de chose.
ratio entre le nombre de liens similaires et le nombre total de liens entrants: plausible Si un site est extremement bon, il sera classé par tous les sites du même type. Le grand jeu des referenceurs sera donc maintenant d'enlever leur liens sortants vers des sites similaires et d'essayer le contraire pour les liens entrants.

Quant à la méthode d'analyse, ils ont sans doute un background théorique plus élevé que pas mal de gens qui ont fait des études sur le referencement. Les iraniens sont assez bon au niveau théorie. Le principal problème est la pratique pour cause d'absence de financement. Google leur a sans doute permis de faire une étude pratique qui ne coutait pas trop chere...
Et ceux qui ont le même background et qui font les mêmes études: soit ils bossent pour des boites concurrentes donc ils ne vont rien dévoiler, soient ils envisagent de faire leur propre moteur de recherche donc idem.

François
 
WRInaute discret
Mais dans le même temps, les changements ne peuvent être trop brutal. Si le classement changait tout d'un coup, cela mettrait en cause la significance des résultats de Google avant le changement et donc dans l'avenir. Donc a priroi, il est probable qu'ils aient pu avoir les grands principes de Google. De toute façon, avoir le détail est impossible vu que Google ne diffuse tous les liens d'un site.

Je suis d'accord. Il est peu probable que l'algorithme de base de Google soit modifié régulièrement. Ce qui change, c'est probablement la pondération des critères, pas les fondamentaux de l'algo.

Si on regarde de manière qualitative les résultats qu'ils ont eu:
DMOZ: critere principal: plausible car c'est une des sources objectives qui permet de classer un site. Ca confirme pas mal de chose.
ratio entre le nombre de liens similaires et le nombre total de liens entrants: plausible Si un site est extremement bon, il sera classé par tous les sites du même type. Le grand jeu des referenceurs sera donc maintenant d'enlever leur liens sortants vers des sites similaires et d'essayer le contraire pour les liens entrants.

Plausible, oui. Mais je n'y crois pas trop.
Tant que l'étude ne sera pas publiée, on ne pourra malheureusement pas avoir de certitudes.

Mais je suis persuadé qu'il y a quelques failles dans leur méthode d'analyse.

D'abord, l'approche strictement linéaire. Ils sont partis du postulat que l'algo de Google ressemblait à une fonction du genre F(a*g(t) + b*h(t)) = a*F(g(t)) + b*F(h(t))
Mais si l'algo comportait en plus des critères logiques ? Si Google a ajouté à son équation des conditions du genre - si A=B, alors C=F(g(t)) - ça compliquerait un peu le problème, non ?

D'autre part, même si leur formule intègre de manière exhaustive tous les critères de pertinence de Google, est-ce qu'ils ont également pris en compte des facteurs n'étant pas des fondamentaux de l'algo mais susceptibles de fausser ou de biaiser les résultats ?

Du genre, le coup de boost éphémère aux nouvelles pages, ou l'existence de "poison words" et "poison links" sur Google. Ce ne sont pas des critères de pertinence, mais ne pas prendre en compte ces facteurs risque de fausser un peu les résultats d'une telle étude, non ?

Quant à la méthode d'analyse, ils ont sans doute un background théorique plus élevé que pas mal de gens qui ont fait des études sur le referencement. Les iraniens sont assez bon au niveau théorie. Le principal problème est la pratique pour cause d'absence de financement. Google leur a sans doute permis de faire une étude pratique qui ne coutait pas trop chere...

En fait, je me demande si l'absence de financement n'a pas justement orienté le choix de la méthode d'analyse. Les deux chercheurs ont résolument choisi de tourner le dos à l'analyse statistique, alors que son apport pourrait être un plus dans le cadre d'une telle étude. Le problème, c'est qu'un crackage d'algo par les méthodes statistiques, ça coûte cher... Et c'est peut-être pour cette raison qu'ils se sont cantonnés à des méthodes purement mathématiques...
 
Olivier Duffez (admin)
Membre du personnel
Je suis bien d'accord qu'il n'y aura sans doute jamais de gros changement d'algorithme, car ce serait avouer que l'algo précédent était mauvais.
Par contre il y a bien des changements réguliers, sans doute un "simple" changement des pondérations des différents critères, mais peut-être aussi l'introduction de nouveaux critères (qui pourra dire le contraire ?).

Je ne vois pas pourquoi Stéphane tu dis qu'ils n'ont pas utilisé de méthode statistique... ou alors je n'ai pas compris ce qu'ils ont fait ! Je pense qu'ils ont défini un modèle mathématique basé sur une pondération linéaire d'un ensemble de critères. Pour déterminer ces facteurs de pondération, on peut partir d'une estimation, mais pour être sérieux il faut les calculer de manière empirique (car on n'a pas bcp d'autres moyens).
Ceci peut être fait par un réseau de neurones par exemple, les facteurs de pondération étant estimés à partir d'un grand nombre de tests de position d'une page pour des mots-clés donnés.

Pour simplifier les choses, j'imagine qu'on peut par exemple chercher l'influence du nombre de mots de la balise TITLE. On construit un grand nombre de pages identiques sauf le nb de mots dans le titre. En supposant qu'elles aient les mêmes caractéristiques pour tous les autres critères, et en faisant un grand nombre de tests comparatifs, on peut espérer obtenir en conclusion le nombre de mots optimal, ou plutôt une idée de l'influence du nb de mots.

Mais au fait, comment peuvent-ils prétendre connaître TOUS les critères utilisés par Google ???
 
WRInaute passionné
WebRankInfo a dit:
Mais au fait, comment peuvent-ils prétendre connaître TOUS les critères utilisés par Google ???

En fait, ils ne sont pas partis des criteres, ils sont partis de la maniere dont on peut caractériser une page internet. Ils ont sans doute fait un peu de tri par analyse statistiques et multivariable pour en éliminer (ex: nombre de 'e' dans une page :wink: ). Et ils ont construit des relations entre les caracteristiques et le classement google. Ses relations prennent la forme d'une fonction qu'ils peuvent relier à des ratios de parametre un peu plus "physique" qu'une "simple" équation.
Je pense que ce qu'ils ont apporté est surtout une nouvelle façon de voir le probleme qui leur permet de décomposer le probleme. AMHO, il y a pas mal d'equipes de recherche qui vont s'y mettre. (pas mal est un grand mot car pour maitriser les outils qu'ils ont utiliser, bah euh, pas pour moi).

François
 
WRInaute discret
WebRankInfo a dit:
Je ne vois pas pourquoi Stéphane tu dis qu'ils n'ont pas utilisé de méthode statistique... ou alors je n'ai pas compris ce qu'ils ont fait ! Je pense qu'ils ont défini un modèle mathématique basé sur une pondération linéaire d'un ensemble de critères. Pour déterminer ces facteurs de pondération, on peut partir d'une estimation, mais pour être sérieux il faut les calculer de manière empirique (car on n'a pas bcp d'autres moyens).
Ceci peut être fait par un réseau de neurones par exemple, les facteurs de pondération étant estimés à partir d'un grand nombre de tests de position d'une page pour des mots-clés donnés.

Il semble qu'ils aient bien utilisé la méthode des réseaux neuronaux. Je me basais en fait sur des commentaires de Mehdi Roudaki, l'un des co-auteurs de l'étude, disant qu'il ne croyait pas aux méthodes de vérification statistique. Moi non plus, je ne comprends pas...


Une chose m'étonne encore, concernant leurs conclusions.

Si le premier critère de pertinence est lié à Dmoz, que se passerait-il si Google décidait de changer de partenaire annuaire ? Ils se retrouvent obligés de réécrire leur algo ???
Je serais vraiment étonné que Google ait pris un risque pareil...
 
WRInaute passionné
stephane a dit:
Si le premier critère de pertinence est lié à Dmoz, que se passerait-il si Google décidait de changer de partenaire annuaire ? Ils se retrouvent obligés de réécrire leur algo ???
Je serais vraiment étonné que Google ait pris un risque pareil...

Justement, pour pouvoir changer d'annuaire, il faudrait qu'ils en trouvent un qui leur coute le même prix (i.e. ils ne payent rien à DMOZ) et qui soit objectif. DMOZ ne sera pas payant et a priori il n'y a aucune raison qu'il ne reste pas objectif, c'est un annuaire ou les editeurs sont évalués par leurs pairs. Donc a priori, c'est un critere plus stable que les autres qui peuvent etre plus facilement truqués par les webmasters.

François
 
WRInaute accro
D'après mon site...

Bon
Mon site -http://www.ortolojf-courses.com, bien que pour l'instant encore avec un PR = 3 seulement, est très très bien placé par rapport à des mot-clés du type: "statistiques courses", ou "pronostics courses", ou autres critères relatifs aux courses de chevaux et leurs pronostics et/ou statistiques associés.

Or, je suis bien inscrit sur DMOZ, et mon site contient effectivement par mal de mots correspondant aux composants du pathname des catégories de DMOZ dans lesquelles je suis.

Celà confirme donc le premier critère dévoilé par le compte rendu cité au premier post de ce thread.

Deuxièmement, mon site a actuellement, d'après une recherche dans http://www2.google.com , 8 sites contenant mon url, mentionnée telle quelle. Il est vrai que sur ces 8 sites, la plupart sont simplement des copies de DMOZ, mais, bien que je n'ai pas regardé, il se peut que ces sites soient spécialisés sur les courses de chevaux.

Par ailleurs, il y a d'autres sites sur lesquels j'ai des liens, et il est très probable, sinon certain, compte tenu du domaine d'application de mon site, que ces sites ont également le même domaine de spécialisation que le mien.

Donc, il semblerait que le deuxième critère du compte rendu, soit également valable.

Ceci dit, je profite de cet état de fait, mais il suffirait bel et bien que Google choisisse un autre annuaire que DMOZ, pour que je me retrouve dans les tous derniers...

Qu'est-ce que vous pensez de ce que je vous rapporte ? Celà vous semble-t-il valide, ou pas ?

Jean Francois Ortolo
 
WRInaute passionné
Re: D'après mon site...

ortolojf a dit:
Ceci dit, je profite de cet état de fait, mais il suffirait bel et bien que Google choisisse un autre annuaire que DMOZ, pour que je me retrouve dans les tous derniers...
Qu'est-ce que vous pensez de ce que je vous rapporte ? Celà vous semble-t-il valide, ou pas ?
C'est theoriquement valide mais en terme de probabilité très faible.

FRançois
 
WRInaute accro
Probabilités très faibles...

Mmmm...
Je ne joue que des paris simples-placés, les moins rentables.
Il suffit que le cheval choisi arrive parmi les 3 premiers.

Sur les 14 paris simples-placés que j'ai fait jusqu'à présent, j'en ai gagné 10.
Et encore, comme je n'ai pas misé la même chose à chaque fois, je ne suis pas rentré dans mes fonds...

Seulement, chez moi j'ai toute la Base de Données complète, de Mars 98 jusqu'à maintenant, alors que mon site s'arrête au 31 Décembre 2001.

Et puis, je ne joue que sur des courses auxquelles participent au plus 12 chevaux, et que des courses de galop, pour éviter les fautes d'allure.

Ceci dit, mes résultats plaident en ma faveur.

Je viens de modifier mon site, il est maintenant plus rapide et plus fonctionnel, en particulier sous Internet Explorer maintenant il fonctionne bien, à part les pages HTML donnant les méthodes d'utilisation des statistiques, qui ont un petit défaut... Celà vient d'Internet Explorer, qui n'interprète pas le HTML comme il faudrait.

Il ne me reste plus qu'à obtenir l'autorisation du PMU, pour pouvoir mettre à jour ma BDD chaque semaine.

A ce moment-là, mon site va faire de nombreux adeptes, je le sens.

Bien à toi.

Jean Francois Ortolo
 
A
Anonymous
Guest
stephane a dit:
<b>L'algorithme de Google devoilé ?

Qu'en pensez-vous ?

Crackage pur et dur de l'algo de Google ou simple coup de bluff, les 2 chercheurs iraniens auront au moins réussi 2 choses:
1- attirer l'attention de bons nombre de référenceurs sur leurs travaux
2 - entretenir pendant 9 mois le suspens

Et, même s'il ne s'agissait que d'un modèle très imparfait, daté dans le temps et valable uniquement dans un espace donné (ce qui serait préférable pour tous) , il aura au moins le mérite de montrer la richesse d'un algorythme incluant un très grand nombre de critères ou paramètres dont certains sont eux-même des "sous-algorythmes" ou des constructions très élaborées (par exemple le pagerank).

Quant au "scoop" consistant à révéler un classement des principaux critères par ordre d'importance, j'imagine que tous les bons référenceurs doivent avoir le leur à partir de simples tests qui sont beaucoup plus faciles à mettre en place.

Katia.
 
Discussions similaires
Haut