data_mining:tf-idf

This is an old revision of the document!


Draft

Heuristik

Web-Page content ⇒ TF-IDF ⇒ Web-Page keywords

Wort wie “der” weniger als Turing Seltene Worte ergeben bessere Keywords

IDF = Inverse document frequency of word $w = log_2\frac{N}{N_w}$ N: Gesamtzahl Dokumente N_w Dokumente die w enthalten

Dokument in dem Wort Turing 10x vorkommt

Häufigere Wörter ergeben bessere Keywords

$n_w^d$ = Häufigkeit von w in document d

TF-IDS = term-frequency x IDF = $n^d_w log_2 \frac{N}{N_w}$

Mutual information zwischen allen Seiten und allen Wörtern ist proportional zu $\sum_d \sum_w n^d_w log_2 \frac{N}{N_w}$

Automatische Berechnung der Top-Keywords für ein Absatz → guter Titel?

Hits | IDF | TF | TF-IDF

  • data_mining/tf-idf.1379250623.txt.gz
  • Last modified: 2014/02/11 21:48
  • (external edit)