Draft ===== TF-IDF ===== Heuristik Web-Page content => TF-IDF => Web-Page keywords Wort wie "der" weniger als Turing Seltene Worte ergeben bessere Keywords IDF = Inverse document frequency of word $w = log_2\frac{N}{N_w}$ N: Gesamtzahl Dokumente N_w Dokumente die w enthalten Dokument in dem Wort Turing 10x vorkommt Häufigere Wörter ergeben bessere Keywords $n_w^d$ = Häufigkeit von w in document d TF-IDS = term-frequency x IDF = $n^d_w log_2 \frac{N}{N_w}$ Mutual information zwischen allen Seiten und allen Wörtern ist proportional zu $\sum_d \sum_w n^d_w log_2 \frac{N}{N_w}$ Automatische Berechnung der Top-Keywords für ein Absatz -> guter Titel? Hits | IDF | TF | TF-IDF Haben ähnliche Dokumente ähnliche TF-IDF Keywords? Semantik von Wörtern, d.h. Gebrauchskontext notwendig Modelle: latent semantics, topic models