tf df idf quesako ?

Règles du forum
Attention ce forum est destiné avant tout à ceux qui découvrent le référencement. Les membres qui auront l'amabilité de répondre à leurs questions sont priés de rester courtois, polis, indulgents, patients et pédagogues... Merci d'avance !

Par ailleurs, inutile d'utiliser ce forum uniquement pour obtenir des liens vers vos sites, les liens sont désactivés pour le référencement (nofollow).

Consultez la formation au REFERENCEMENT naturel Google de WebRankInfo / Ranking Metrics


lambda
WRInaute impliqué
WRInaute impliqué
 
Messages: 528
Inscription: 16 Nov 2004

tf df idf quesako ?

Message le Lun Déc 27, 2004 10:00

j´ai lu dans un post tf , df, idf
je ne comprends pas a quoi cela correspond
qui peut me donner une reponse ? :D


Moffen
WRInaute discret
WRInaute discret
 
Messages: 155
Inscription: 31 Oct 2003

Message le Lun Déc 27, 2004 12:34

Salut,
C'est des termes de sémantique (Salton)
TF = term frequency in document
DF = doc frequency of term
IDF = inverse doc freq. = 1/DF


lambda
WRInaute impliqué
WRInaute impliqué
 
Messages: 528
Inscription: 16 Nov 2004

Message le Lun Déc 27, 2004 13:41

merci pour la reponse
ou puis-je avoir plus de renseignements ?
en francais de preference......si tu vois mon probleme
je comprends tf mais pas df.
peux-tu m´expliquer ?


Moffen
WRInaute discret
WRInaute discret
 
Messages: 155
Inscription: 31 Oct 2003

Message le Lun Déc 27, 2004 14:02



cariboo
WRInaute impliqué
WRInaute impliqué
 
Messages: 770
Inscription: 8 Fév 2003

Message le Jeu Déc 30, 2004 23:08

Moffen a dit l'essentiel.

Quant à l'article, hélas, disons que cet article est sur un sujet voisin, mais ne donne pas d'infos détaillées sur tf*idf...

tf*idf est le nom consacré pour la mesure du poids des mots dans le modèle vectoriel de Salton...

tf (term frequency), c'est tout bêtement la mesure du nombre de fois ou un terme apparait dans un document donné...

Mais comme il existe des termes plus ou moins fréquents dans la langue, on "corrige" tf par l'inverse de la fréquence des documents (df : document fréquency). df est en fait le nombre de documents différents dans lesquels on retrouve un mot donné...

Il existe pas mal de variantes de la formule, la plus répandue est :

tf*idf = log ( N / df ) avec N = nombre de documents dans le corpus.

On prend le log car le ratio N / df peut prendre des valeurs très grandes.

Les poids sont utilisés comme des coordonnées dans l'espace vectoriel de Salton.


Si vous avez aimé cette discussion, partagez-la sur vos réseaux sociaux préférés :

Formation recommandée sur ce thème :

Formation REFERENCEMENT naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.

Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.

Lectures recommandées sur ce thème :



Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 2 invités