tf df idf quesako ?
Règles du forum
Attention ce forum est destiné avant tout à ceux qui découvrent le référencement. Les membres qui auront l'amabilité de répondre à leurs questions sont priés de rester courtois, polis, indulgents, patients et pédagogues... Merci d'avance !
Par ailleurs, inutile d'utiliser ce forum uniquement pour obtenir des liens vers vos sites, les liens sont désactivés pour le référencement (nofollow).
Attention ce forum est destiné avant tout à ceux qui découvrent le référencement. Les membres qui auront l'amabilité de répondre à leurs questions sont priés de rester courtois, polis, indulgents, patients et pédagogues... Merci d'avance !
Par ailleurs, inutile d'utiliser ce forum uniquement pour obtenir des liens vers vos sites, les liens sont désactivés pour le référencement (nofollow).
5 messages
• Page 1 sur 1
Consultez la formation au REFERENCEMENT naturel Google de WebRankInfo / Ranking Metrics
-

Moffen - WRInaute discret

- Messages: 155
- Inscription: 31 Oct 2003
Il y a pas mal d'infos ici :
http://www.webmaster-hub.com/publication/article106.html
http://www.webmaster-hub.com/publication/article106.html
-

cariboo - WRInaute impliqué

- Messages: 770
- Inscription: 8 Fév 2003
Moffen a dit l'essentiel.
Quant à l'article, hélas, disons que cet article est sur un sujet voisin, mais ne donne pas d'infos détaillées sur tf*idf...
tf*idf est le nom consacré pour la mesure du poids des mots dans le modèle vectoriel de Salton...
tf (term frequency), c'est tout bêtement la mesure du nombre de fois ou un terme apparait dans un document donné...
Mais comme il existe des termes plus ou moins fréquents dans la langue, on "corrige" tf par l'inverse de la fréquence des documents (df : document fréquency). df est en fait le nombre de documents différents dans lesquels on retrouve un mot donné...
Il existe pas mal de variantes de la formule, la plus répandue est :
tf*idf = log ( N / df ) avec N = nombre de documents dans le corpus.
On prend le log car le ratio N / df peut prendre des valeurs très grandes.
Les poids sont utilisés comme des coordonnées dans l'espace vectoriel de Salton.
Quant à l'article, hélas, disons que cet article est sur un sujet voisin, mais ne donne pas d'infos détaillées sur tf*idf...
tf*idf est le nom consacré pour la mesure du poids des mots dans le modèle vectoriel de Salton...
tf (term frequency), c'est tout bêtement la mesure du nombre de fois ou un terme apparait dans un document donné...
Mais comme il existe des termes plus ou moins fréquents dans la langue, on "corrige" tf par l'inverse de la fréquence des documents (df : document fréquency). df est en fait le nombre de documents différents dans lesquels on retrouve un mot donné...
Il existe pas mal de variantes de la formule, la plus répandue est :
tf*idf = log ( N / df ) avec N = nombre de documents dans le corpus.
On prend le log car le ratio N / df peut prendre des valeurs très grandes.
Les poids sont utilisés comme des coordonnées dans l'espace vectoriel de Salton.
5 messages
• Page 1 sur 1
Formation recommandée sur ce thème :
Formation REFERENCEMENT naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.
Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.
Lectures recommandées sur ce thème :
- Wikia Search sort en version alpha : premières impressions - 07-01-2008
- L'indice de densité idéal pour le référencement - 14-09-2009
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 2 invités

