data_mining:correlation

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revisionBoth sides next revision
data_mining:correlation [2015/08/20 16:31] – [Schätzung] phreazerdata_mining:correlation [2015/08/20 16:35] – [Schätzung] phreazer
Line 45: Line 45:
 Solange die Samplezahl sehr viel größer ist als die Anzahl der Bins erhält man mit der Verwendung der empirischen Verteilung $\hat{p}$ eine gute Schätzung: Solange die Samplezahl sehr viel größer ist als die Anzahl der Bins erhält man mit der Verwendung der empirischen Verteilung $\hat{p}$ eine gute Schätzung:
  
 +\begin{align*}
 +I(\hat{p}(X;Y)) &=\sum_{x,y}\hat{p}(x,y)\left[\log \hat{p}(x,y)-\log \hat{p}(x)\hat{p}(y)\right]
 +\end{align*}
 +
 +Wobei $\hat{p}(x) = \sum_x \hat{p}(x,y)$ als empirische Randverteilungen verwendet werden.
 +
 +Der Schätzer besitzt einen positiven Bias, der aber verbessert werden kann (http://ai.stanford.edu/~gal/Research/Redundancy-Reduction/Neuron_suppl/node2.html).
  
 ====== Total correlation ====== ====== Total correlation ======
  • data_mining/correlation.txt
  • Last modified: 2017/08/06 23:49
  • by phreazer