Nouvelle Algorithme...

Consultez la formation au référencement naturel Google de WebRankInfo / Ranking Metrics

tiboel
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 116
Inscription: Dim Mar 21, 2004 15:36

Nouvelle Algorithme...

Message le Jeu Avr 22, 2004 10:49

Je suis entrain de réfléchir à un algorithme de recherche de page web ( donc moteur de recherche) basé sur un algorithme que j'utilise sur un site web pour calculer la ressemblance de personnes (recherche de sosies).

Cet algorithme permet de rechercher la ressemblance entre la personne A et la personne B sachant que des personnes ont votés pour la ressemblance de C avec A et de C avec B avec plusieurs itérations possibles.

Les résultats actuels ne sont pas trés pertinents car ils sont basés sur cette relation fausses:
Code: Tout sélectionner
Si A ressemble trés peu à B
Si B ressemble trés peu à C
alors A ressemble trés peu à C ( ce qui est faux évidemment)


En effet cette relation est rélective (si A ressemble trés peu à B alors B ressemble trés peu à A) mais pas transitive ( comme montré au-dessus) ce n'est pas une relation de comparaison

Je cherche une relation de comparaison réflective, transitive et ordonée ( c'est à dire en gros que l'on peut dire que entre A et B on a une relation de degré 3 , une note par exemple 3/10, qui est plus faible que 4) pour juger de la "ressemblance" de site WEB, pour comparer deux sites WEB.

La relation de distance sur un espace à une dimension orienté est une relation réflective; transitive et ordonnée, en effet si A est distant de B de +3 et B de C de +4 alors A de C de +7

Ce qui n'est pas le cas en général Marseille est à 800 km de paris, Paris 400 km de Lyon mais Marseille n'est pas à 1200 km de Lyon sinon on l'appelerait Bruxelles.

Si vous avez des idées d'une telle relation pour comparer deux sites WEB, il est possible grâce à un algorithme basé sur le vote de 1000 sites WEB entre eux (ce qui est faisable) par exemple d'établr la relation entre 1 000 0000 de sites WEB et ainsi de suite.

Réfléchissez-y et postez vos commentaires,

Vous pouvez consulter le document suivant pour de plus amples informations :
http://www.monsosie.com/arr_tree.php


yannouk
WRInaute accro
WRInaute accro
 
Messages: 2138
Inscription: Sam Oct 11, 2003 12:35

Message le Jeu Avr 22, 2004 11:54

je vois pas en quoi comparer des sites web permet d'etablir une hierarchie entre eux en fait...meme si on arrive a trouver que A et B ont une ressemblance, qu'est ce qui dira que A doit sortir devant B?

Eservice
WRInaute accro
WRInaute accro
 
Messages: 1463
Inscription: Mer Sep 18, 2002 11:28

Message le Jeu Avr 22, 2004 12:04

Bonjour tiboel,

ce qui fausse la transitivité c'est que le sous-ensemble de critères de ressemblance change d'une proposition à l'autre. S'il ne change pas la transitivité est respectée.

Pour répondre à yannouck, on pourrait prendre le nombre de votes externes pour ce sous-ensemble.

tiboel
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 116
Inscription: Dim Mar 21, 2004 15:36

Message le Jeu Avr 22, 2004 12:06

On peut imaginer pour chaque mot clé un seul site faisant référence par exemple pour référencement ce serait webrankinfo ( ou qqn qui paierait pour être la source de ce mot-clés) aprés on établit la matrice de ressemblance de ce site et on affiche selon la ressemblance trouvé.

Sur le site monsosie.com, c le vote sur les célébrités qui est la source de la matrice de ressemblance, on vote pour la ressemblance d'un ensemble d'individu à une liste limitée de célébrités. Les sites références feraient office de célébrités.

Je ne dit pas que c LA solution mais ca pourrait être le début d'un brain storming sur la question

tiboel
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 116
Inscription: Dim Mar 21, 2004 15:36

Message le Jeu Avr 22, 2004 12:08

Eservice a écrit:Bonjour tiboel,

ce qui fausse la transitivité c'est que le sous-ensemble de critères de ressemblance change d'une proposition à l'autre. S'il ne change pas la transitivité est respectée.

Pour répondre à yannouck, on pourrait prendre le nombre de votes externes pour ce sous-ensemble.


J'ai l'impression que ce que tu dis est trés vrai mais peux-tu préciser ce que tu penses ?

Eservice
WRInaute accro
WRInaute accro
 
Messages: 1463
Inscription: Mer Sep 18, 2002 11:28

Message le Jeu Avr 22, 2004 12:18

Comme sous-ensemble on pourrait prendre un groupe de mots clés avec une présence minimale (à définir).
Le classement pourrait être fait par le nombre et la qualité de votes externes contenant ce sous-ensemble.

On est en train de réinventer les algos des moteurs ? :lol:

tiboel
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 116
Inscription: Dim Mar 21, 2004 15:36

Message le Jeu Avr 22, 2004 12:26

C'est bien à ca que je pensais

On refait peut-être les algos des moteurs de recherche... ;)
Ou on en invente un nouveau... on peut toujours y croire

MixterX
WRInaute discret
WRInaute discret
 
Messages: 60
Inscription: Jeu Jan 29, 2004 2:01

Message le Ven Avr 23, 2004 0:06

Si tu parles de classer par ressemblance abandonne tout de suite l'idée.
En effet un site ne parle absolument jamais d'un même thême, surtout au niveau sémantique.
Les pages d'un sites sont en général à classer individuellement.
Prenons par exemple le site de l'equipe, dans lequel tu as plusieurs types de sport, il va s'en dire que chacune des pages :
http://www.lequipe.fr/Tennis/index.html
http://www.lequipe.fr/Basket/index.html

appartiennent à un thème spécifique sinon pauvre de toi si tu les classes dans un seul thème qui serait sport.

Finalement c'est faire preuve d'un grand optimisme qu'à la qualité des moteurs que de dire qu'il s'intéresse au contenu proprement dit d'une page afin d'en évaluer un thème.

http://www.google.fr/search?num=100&hl= ... DcountryFR
Parce que sinon, le site de bmw, qui est composé d'une frame ne serait pas premier, comment une page qui définit un cadre peu être plus pertinent que les pages que le contenu du cadre en lui - même ( ou alors comment 0 mots qui s'affiche réellement dans ton navigateur peuvent être plus pertinent qu'une page qui en affiche ).

Attention, je ne veux pas dire que le site de bmw, n'est pas pertinent pour la recherche BMW, mais je pense que la page d'accueil n'est pas réllement un exemple de pertinence.

Enfin bon l'avantage c'est que ça permet d'effacer les autres sites :
http://www.google.fr/search?num=100&hl= ... DcountryFR

Tf1 qui a créé un sous nom de domaine pour chacune des parties de leur site, se retrouve avec tous ses sous nom de domaines de classer dedans. Comme çà si tu veux chercher des infos sur TF1 autres que sur le portail, il faut encore plus spécifier sa recherche.

Voilà, enfin je pense avoir réussi à prouver qu'il n'y pas trop de classification, au sein des moteurs de recherches, les plus connus.

Sinon, ils afficheraient par exemple pour football, une sélection de thème du genre :
Sports/Football
Sports/Football/Club
Commerce/habillement
...

en effet sur des recherches peu précises comme cela, je trouverai bien plus pertinent ce type d'affichage.


Mais pour réaliser cette classification, qui n'est valable que pays par pays, cela demande d'avoir une arborescence de thème ( cf yahoo), une base de vocabulaire spécifique ( ex hameçon pour le thème pêche ) et une base de vocabulaire de contexte ( ex ligne, qui pêche à la ligne ==> le thème pêche ), et un petit réseau de neurones afin de classer une à une les pages.

Voilà, je pense que finalement les algorithmes des moteurs de recherches à l'heure actuelle sont bien plus simpliste que çà.

Parce que chez moi, je comprends pas comment sur cette recherche :
http://www.google.fr/search?num=100&hl= ... DcountryFR
cette page peut être plus pertinente :

http://www.buycentral.fr/main__rf__fnz_ ... _4787.html

que celle là :
http://www.cinekritik.com/film/base.php ... nceagneaux

Sur ce je te laisse, parce que j'ai vraiement du taf, il faut vraiement que je le finnisse mon moteur !!!


Formation recommandée sur ce thème :

Formation Référencement naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.

Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.

Lectures recommandées sur ce thème :

Consultez la description détaillée des produits ou services de Google suivants : Google TrustRank

  • Analyse de similarité textuelle
    Cet outil vous permet de calculer la similarité entre 2 pages web. L'algorithme utilisé repose sur l'analyse des occurrences des mots (mais pas sur leur positionnement dans les pages). Google utilise cette notion à certains endroits dans son algorithme, mais de façon bien plus évoluée que ce petit outil... Avoir des pages trop similaires peut entraîner des problèmes d'indexation... Cet outil vous permettra peut-être de résoudre certains problèmes de contenus dupliqués.


Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 1 invité