Differences
This shows you the differences between two versions of the page.
Next revision | Previous revision | ||
data_mining:entropie [2013/09/15 12:46] – angelegt phreazer | data_mining:entropie [2017/09/09 10:53] (current) – phreazer | ||
---|---|---|---|
Line 1: | Line 1: | ||
- | ====== | + | ====== |
+ | |||
+ | Claude Shannon (1948): Entropy as a measure of surprise / uncertainty. | ||
+ | |||
+ | Message about an event with a probability of occurrence p includes $- \mathit{log}_2 p$ bits of information | ||
+ | |||
+ | Example of a fair coin: $- \mathit{log}_2 0.5 = $1 | ||
+ | |||
+ | ====== Mutual information ====== | ||
+ | |||
+ | Werte eines Features, F => ML-Algo => Vorhergesagte Werte eines Verhaltens B | ||
+ | |||
+ | H(F) => ML-Algo => H(B) | ||
+ | |||
+ | Mutual Information zwischen F und B definiert als | ||
+ | |||
+ | $$ | ||
+ | I(F,B) \equiv \sum_{f,b} p(f,b) log \frac{p(f, | ||
+ | $$ | ||
+ | |||
+ | Summieren über Feature und Verhalten | ||
+ | |||
+ | Erklärung Verhältnis-Teil: | ||
+ | Wenn Feature und Verhalten unabhängig, | ||
+ | |||
+ | D.h. Vorhersage ist unmöglich. | ||
+ | |||
+ | H(F) + H(B) - H(F,B) | ||
+ | |||
+ | Features selection => Die, die höchste MI haben, allerdings zu rechenintensiv | ||
+ | |||
+ | Proxies: IDF; iterativ AdaBoost | ||
+ | |||
+ | Mehr features -> | ||
+ | NBC verbessert sich, fällt dann. | ||
+ | |||
+ | Redundante Features, Annahme von Bayes | ||
+ | |||
+ | ====== Beispiel ====== | ||
+ | p(+) = 10.000/ | ||
+ | p(-) = 5.000/ | ||
+ | p(hate) = 3.000/ | ||
+ | p(~hate) = 0,8\\ | ||
+ | p(hate,+) =1/15.000 \text{(kommt in keinem positiven Kommentar vor, 1 anstelle von Null => Smoothing)}\\ | ||
+ | p(~hate,+) = 10.000/ | ||
+ | p(hate,-) = 3.000/ | ||
+ | p(~hate,-) = 2.000/ | ||
+ | |||
+ | $$ | ||
+ | I(H,S) = p(hate,+) * log \frac{p(hate, | ||
+ | $$ | ||
+ | |||
+ | |||
+ | ====== Kapazität eines Kanals ====== | ||
+ | |||
+ | Maximale mutual information, | ||
+ | |||
+ | Äquivalent im ML: Wie viele Trainingsdaten notwendig -> Abhängig vom Konzept | ||
+ | |||
- | Claude Shannon (1948): Information hängt mit der Überraschung zusammen | ||
- | Nachricht über ein Ereignis mit Wahscheinlichkeit p umfasst $- \mathit{log}_2 p$ Bits an Informationen | ||
- | Beispiel für eine faire Münze : $- \mathit{log}_2 0.5 = 1$ | ||