Draft
TF-IDF
Heuristik
Web-Page content ⇒ TF-IDF ⇒ Web-Page keywords
Wort wie “der” weniger als Turing Seltene Worte ergeben bessere Keywords
IDF = Inverse document frequency of word $w = log_2\frac{N}{N_w}$ N: Gesamtzahl Dokumente N_w Dokumente die w enthalten
Dokument in dem Wort Turing 10x vorkommt
Häufigere Wörter ergeben bessere Keywords
$n_w^d$ = Häufigkeit von w in document d
TF-IDS = term-frequency x IDF = $n^d_w log_2 \frac{N}{N_w}$
Mutual information zwischen allen Seiten und allen Wörtern ist proportional zu $\sum_d \sum_w n^d_w log_2 \frac{N}{N_w}$
Automatische Berechnung der Top-Keywords für ein Absatz → guter Titel?
Hits | IDF | TF | TF-IDF
Haben ähnliche Dokumente ähnliche TF-IDF Keywords? Semantik von Wörtern, d.h. Gebrauchskontext notwendig
Modelle: latent semantics, topic models