This is an old revision of the document!
Draft
TF-IDF
Wort wie “der” weniger als Turing Seltene Worte ergeben bessere Keywords
IDF = Inverse document frequency of word $w = log_2\frac{N}{N_w} N: Gesamtzahl Dokumente N_w Dokumente die w enthalten
Dokument in dem Wort Turing 10x vorkommt
Häufigere Wörter ergeben bessere Keywords
$n_w^d = Häufigkeit von w in document d
TF-IDS = term-frequency x IDF = n^d_w log_2 \frac{N}{N_w}