Show pageOld revisionsBacklinksBack to top This page is read only. You can view the source, but not change it. Ask your administrator if you think this is wrong. <WRAP center round todo 60%> Draft </WRAP> ===== TF-IDF ===== Heuristik Web-Page content => TF-IDF => Web-Page keywords Wort wie "der" weniger als Turing Seltene Worte ergeben bessere Keywords IDF = Inverse document frequency of word $w = log_2\frac{N}{N_w}$ N: Gesamtzahl Dokumente N_w Dokumente die w enthalten Dokument in dem Wort Turing 10x vorkommt Häufigere Wörter ergeben bessere Keywords $n_w^d$ = Häufigkeit von w in document d TF-IDS = term-frequency x IDF = $n^d_w log_2 \frac{N}{N_w}$ Mutual information zwischen allen Seiten und allen Wörtern ist proportional zu $\sum_d \sum_w n^d_w log_2 \frac{N}{N_w}$ Automatische Berechnung der Top-Keywords für ein Absatz -> guter Titel? Hits | IDF | TF | TF-IDF Haben ähnliche Dokumente ähnliche TF-IDF Keywords? Semantik von Wörtern, d.h. Gebrauchskontext notwendig Modelle: latent semantics, topic models data_mining/tf-idf.txt Last modified: 2014/02/11 20:49by 127.0.0.1