Mutual Information

Gibt die Stärke des statistischen Zusammenhangs zweier Zufallsgrößen an.

Alternative Bezeichnungen: Transinformation, Synentropie.

Entropiebasiert

Differenz von Quell-Entropie und Äquivokation oder Empfangsentropie und Fehlinformation.

$I(X;Y) = H(X) - H(X|Y) = H(Y) - H(Y|X)$

Wahrscheinlichkeiten

$I(X;Y) = \sum_x \sum_y p(x,y) * log_2(\frac{p(x,y)}{p(x)p(y)})$

mit $p(x,y)$ als multivariate Wahrscheinlichkeitsverteilung (jpf) und $p(x), p(y)$ als Randverteilung.

Kullback-Leibler-Divergenz

$I(X;Y) = D(p(x,y)||p(x)p(y))$

mit

$D(P||Q) = KL(P,Q) = \sum_{x \in X} P(x) * log \frac{P(x)}{Q(x)}$

Beispiel:

F ist Feature und T ist Target ⇒ I(F,B) Siehe auch https://www.youtube.com/watch?v=hlGJ1M8T5oA

Naive KNN

$x$ ist d-dimensionale kontinuierliche ZV mit pdf p und Randichten $p_j$ für jedes $x_j$.

\begin{align}H(x)& = - \int_{R^d} p(x) log p(x) dx \\I(x)& = - \int_{R^d} p(x) log \frac{p(x)}{\prod_{j=1}^{d} p_j(x_j)} dx\end{align}

Für $d>2$ ist die generalisierte MI die total correlation oder multi-information. Gegeben N i.i.d. samples $X$ Schätzer $I(x)$ basierend auf Samples.

Naive KNN-Schätzer:

- Asymptotic unbiased estimator