Differences
This shows you the differences between two versions of the page.
Both sides previous revisionPrevious revisionNext revision | Previous revision | ||
data_mining:mutual_information [2015/08/13 19:44] – [Definitionen] phreazer | data_mining:mutual_information [2015/08/14 00:21] (current) – [Beispiel:] phreazer | ||
---|---|---|---|
Line 7: | Line 7: | ||
**Entropiebasiert** | **Entropiebasiert** | ||
+ | |||
Differenz von Quell-Entropie und Äquivokation oder Empfangsentropie und Fehlinformation. | Differenz von Quell-Entropie und Äquivokation oder Empfangsentropie und Fehlinformation. | ||
Line 14: | Line 15: | ||
$I(X;Y) = \sum_x \sum_y p(x,y) * log_2(\frac{p(x, | $I(X;Y) = \sum_x \sum_y p(x,y) * log_2(\frac{p(x, | ||
+ | |||
+ | mit $p(x,y)$ als multivariate Wahrscheinlichkeitsverteilung (jpf) und $p(x), p(y)$ als Randverteilung. | ||
**Kullback-Leibler-Divergenz** | **Kullback-Leibler-Divergenz** | ||
$I(X;Y) = D(p(x, | $I(X;Y) = D(p(x, | ||
+ | |||
+ | mit | ||
+ | |||
+ | $D(P||Q) = KL(P,Q) = \sum_{x \in X} P(x) * log \frac{P(x)}{Q(x)}$ | ||
+ | |||
+ | ==== Beispiel: ==== | ||
+ | F ist Feature und T ist Target => I(F,B) | ||
+ | Siehe auch https:// | ||
+ | ===== Schätzer ===== | ||
+ | |||
+ | ==== Naive KNN ==== | ||
+ | $x$ ist d-dimensionale kontinuierliche ZV mit pdf p und Randichten $p_j$ für jedes $x_j$. | ||
+ | |||
+ | \begin{align}H(x)& | ||
+ | |||
+ | |||
+ | Für $d>2$ ist die generalisierte MI die total correlation oder multi-information. Gegeben N i.i.d. samples $X$ Schätzer $I(x)$ basierend auf Samples. | ||
+ | |||
+ | Naive KNN-Schätzer: | ||
+ | |||
+ | - Asymptotic unbiased estimator |