WDF

Was bedeutet WDF?

Abkürzung für: Within Document Frequency

Definition:  Mit der WDF wird die Wortgewichtung eines Dokumentes ausgedrückt. Dieser Gewichtungswert lässt sich mit der IDF und den Gewichtungswert P kombinieren. Es gilt, je höher der WDF Wert für eine Term ist, desto häufiger kommt dieser in dem Dokument vor.

WDF-Formel

WDF Formel

i=:Wort
j=:Dokument
L=:Gesamtzahl der Wörter in Dokument j
Freq(i,j)=:Häufigkeit des Wortes i im Dokument j

Erklärung zu „+1“: falls Freq(i,j) = 0 ist, erreicht man mit dem „+1“ dass im Zähler log2(1) = 0 steht.

Beispiel

Ein Dokument besteht aus 1000 Wörtern, also ist L=1000. Das Wort i kommt in diesem Dokument 20 mal vor, also ist Freq(i,j)=20.

 

 

Posted in .