data_mining:tf-idf

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
data_mining:tf-idf [2013/09/15 15:01] – angelegt phreazerdata_mining:tf-idf [2014/02/11 21:49] (current) – external edit 127.0.0.1
Line 4: Line 4:
  
 ===== TF-IDF ===== ===== TF-IDF =====
 +
 +Heuristik
 +
 +Web-Page content => TF-IDF => Web-Page keywords
  
 Wort wie "der" weniger als Turing Wort wie "der" weniger als Turing
 Seltene Worte ergeben bessere Keywords Seltene Worte ergeben bessere Keywords
  
-IDF = Inverse document frequency of word $w = log_2\frac{N}{N_w}+IDF = Inverse document frequency of word $w = log_2\frac{N}{N_w}$
 N: Gesamtzahl Dokumente N: Gesamtzahl Dokumente
 N_w Dokumente die w enthalten N_w Dokumente die w enthalten
Line 16: Line 20:
 Häufigere Wörter ergeben bessere Keywords Häufigere Wörter ergeben bessere Keywords
  
-$n_w^d = Häufigkeit von w in document d+$n_w^d= Häufigkeit von w in document d 
 + 
 +TF-IDS = term-frequency x IDF = $n^d_w log_2 \frac{N}{N_w}$ 
 + 
 +Mutual information zwischen allen Seiten und allen Wörtern ist proportional zu $\sum_d \sum_w n^d_w log_2 \frac{N}{N_w}$ 
 + 
 +Automatische Berechnung der Top-Keywords für ein Absatz 
 +-> guter Titel? 
 + 
 +Hits | IDF | TF | TF-IDF 
 + 
 + 
 +Haben ähnliche Dokumente ähnliche TF-IDF Keywords? 
 +Semantik von Wörtern, d.h. Gebrauchskontext notwendig 
 + 
 +Modelle: latent semantics, topic models
  
-TF-IDS = term-frequency x IDF = n^d_w log_2 \frac{N}{N_w} 
  • data_mining/tf-idf.txt
  • Last modified: 2014/02/11 21:49
  • by 127.0.0.1