Differences

This shows you the differences between two versions of the page.

--- data_mining:tf-idf [2013/09/15 13:01] – angelegt phreazer
+++ data_mining:tf-idf [2014/02/11 20:49] (current) – external edit 127.0.0.1
@@ Line 4: / Line 4: @@
 ===== TF-IDF =====
+Heuristik
+Web-Page content => TF-IDF => Web-Page keywords
 Wort wie "der" weniger als Turing
 Seltene Worte ergeben bessere Keywords
-IDF = Inverse document frequency of word $w = log_2\frac{N}{N_w}
+IDF = Inverse document frequency of word $w = log_2\frac{N}{N_w}$
 N: Gesamtzahl Dokumente
 N_w Dokumente die w enthalten
@@ Line 16: / Line 20: @@
 Häufigere Wörter ergeben bessere Keywords
-$n_w^d = Häufigkeit von w in document d
+$n_w^d$ = Häufigkeit von w in document d
+TF-IDS = term-frequency x IDF = $n^d_w log_2 \frac{N}{N_w}$
+Mutual information zwischen allen Seiten und allen Wörtern ist proportional zu $\sum_d \sum_w n^d_w log_2 \frac{N}{N_w}$
+Automatische Berechnung der Top-Keywords für ein Absatz
+-> guter Titel?
+Hits | IDF | TF | TF-IDF
+Haben ähnliche Dokumente ähnliche TF-IDF Keywords?
+Semantik von Wörtern, d.h. Gebrauchskontext notwendig
+Modelle: latent semantics, topic models
-TF-IDS = term-frequency x IDF = n^d_w log_2 \frac{N}{N_w}