data_mining:mutual_information

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
data_mining:mutual_information [2015/08/13 21:47] – [Definitionen] phreazerdata_mining:mutual_information [2015/08/14 02:21] (current) – [Beispiel:] phreazer
Line 7: Line 7:
  
 **Entropiebasiert** **Entropiebasiert**
 +
 Differenz von Quell-Entropie und Äquivokation oder Empfangsentropie und Fehlinformation. Differenz von Quell-Entropie und Äquivokation oder Empfangsentropie und Fehlinformation.
  
Line 14: Line 15:
  
 $I(X;Y) = \sum_x \sum_y p(x,y) * log_2(\frac{p(x,y)}{p(x)p(y)})$ $I(X;Y) = \sum_x \sum_y p(x,y) * log_2(\frac{p(x,y)}{p(x)p(y)})$
 +
 +mit $p(x,y)$ als multivariate Wahrscheinlichkeitsverteilung (jpf) und $p(x), p(y)$ als Randverteilung.
  
 **Kullback-Leibler-Divergenz** **Kullback-Leibler-Divergenz**
Line 21: Line 24:
 mit mit
  
-$D(P||Q) = KL(P,Q) = \sum_{x \in X} P(x) * log \frac{P(x)}{Q(x)} dx$+$D(P||Q) = KL(P,Q) = \sum_{x \in X} P(x) * log \frac{P(x)}{Q(x)}
 + 
 +==== Beispiel: ==== 
 +F ist Feature und T ist Target => I(F,B) 
 +Siehe auch https://www.youtube.com/watch?v=hlGJ1M8T5oA 
 +===== Schätzer ===== 
 + 
 +==== Naive KNN ==== 
 +$x$ ist d-dimensionale kontinuierliche ZV mit pdf p und Randichten $p_j$ für jedes $x_j$. 
 + 
 +\begin{align}H(x)& = - \int_{R^d} p(x) log p(x) dx \\I(x)& = - \int_{R^d} p(x) log \frac{p(x)}{\prod_{j=1}^{d} p_j(x_j)} dx\end{align} 
 + 
 + 
 +Für $d>2$ ist die generalisierte MI die total correlation oder multi-information. Gegeben N i.i.d. samples $X$ Schätzer $I(x)basierend auf Samples. 
 + 
 +Naive KNN-Schätzer: 
 + 
 +- Asymptotic unbiased estimator
  • data_mining/mutual_information.1439495261.txt.gz
  • Last modified: 2015/08/13 21:47
  • by phreazer