data_mining:mutual_information

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
Last revisionBoth sides next revision
data_mining:mutual_information [2015/08/13 21:43] – [Definitionen] phreazerdata_mining:mutual_information [2015/08/14 02:16] – [Definitionen] phreazer
Line 7: Line 7:
  
 **Entropiebasiert** **Entropiebasiert**
 +
 Differenz von Quell-Entropie und Äquivokation oder Empfangsentropie und Fehlinformation. Differenz von Quell-Entropie und Äquivokation oder Empfangsentropie und Fehlinformation.
  
Line 14: Line 15:
  
 $I(X;Y) = \sum_x \sum_y p(x,y) * log_2(\frac{p(x,y)}{p(x)p(y)})$ $I(X;Y) = \sum_x \sum_y p(x,y) * log_2(\frac{p(x,y)}{p(x)p(y)})$
 +
 +mit $p(x,y)$ als multivariate Wahrscheinlichkeitsverteilung (jpf) und $p(x), p(y)$ als Randverteilung.
 +
 +**Kullback-Leibler-Divergenz**
 +
 +$I(X;Y) = D(p(x,y)||p(x)p(y))$
 +
 +mit
 +
 +$D(P||Q) = KL(P,Q) = \sum_{x \in X} P(x) * log \frac{P(x)}{Q(x)}$
 +
 +==== Beispiel: ====
 +F ist Feature und T ist Target => I(F,B)
 +
 +===== Schätzer =====
 +
 +==== Naive KNN ====
 +$x$ ist d-dimensionale kontinuierliche ZV mit pdf p und Randichten $p_j$ für jedes $x_j$.
 +
 +\begin{align}H(x)& = - \int_{R^d} p(x) log p(x) dx \\I(x)& = - \int_{R^d} p(x) log \frac{p(x)}{\prod_{j=1}^{d} p_j(x_j)} dx\end{align}
 +
 +
 +Für $d>2$ ist die generalisierte MI die total correlation oder multi-information. Gegeben N i.i.d. samples $X$ Schätzer $I(x)$ basierend auf Samples.
 +
 +Naive KNN-Schätzer:
 +
 +- Asymptotic unbiased estimator
  • data_mining/mutual_information.txt
  • Last modified: 2015/08/14 02:21
  • by phreazer