Gibt die Stärke des statistischen Zusammenhangs zweier Zufallsgrößen an.
Alternative Bezeichnungen: Transinformation, Synentropie.
Entropiebasiert
Differenz von Quell-Entropie und Äquivokation oder Empfangsentropie und Fehlinformation.
$I(X;Y) = H(X) - H(X|Y) = H(Y) - H(Y|X)$
Wahrscheinlichkeiten
$I(X;Y) = \sum_x \sum_y p(x,y) * log_2(\frac{p(x,y)}{p(x)p(y)})$
mit $p(x,y)$ als multivariate Wahrscheinlichkeitsverteilung (jpf) und $p(x), p(y)$ als Randverteilung.
Kullback-Leibler-Divergenz
$I(X;Y) = D(p(x,y)||p(x)p(y))$
mit
$D(P||Q) = KL(P,Q) = \sum_{x \in X} P(x) * log \frac{P(x)}{Q(x)}$
F ist Feature und T ist Target ⇒ I(F,B) Siehe auch https://www.youtube.com/watch?v=hlGJ1M8T5oA
$x$ ist d-dimensionale kontinuierliche ZV mit pdf p und Randichten $p_j$ für jedes $x_j$.
\begin{align}H(x)& = - \int_{R^d} p(x) log p(x) dx \\I(x)& = - \int_{R^d} p(x) log \frac{p(x)}{\prod_{j=1}^{d} p_j(x_j)} dx\end{align}
Für $d>2$ ist die generalisierte MI die total correlation oder multi-information. Gegeben N i.i.d. samples $X$ Schätzer $I(x)$ basierend auf Samples.
Naive KNN-Schätzer:
- Asymptotic unbiased estimator