data_mining:correlation

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
Last revisionBoth sides next revision
data_mining:correlation [2015/08/20 15:04] – [Mutual information] phreazerdata_mining:correlation [2015/08/20 16:38] – [Correlation] phreazer
Line 2: Line 2:
  
 Covarianz (nicht-standardisierter Pearson Korrelationskoeffizient) Covarianz (nicht-standardisierter Pearson Korrelationskoeffizient)
 +
 +Lineare Abhängigkeiten.
  
 <nowiki> <nowiki>
 \begin{align*} \begin{align*}
-\operatorname{Cov}(X,Y) &= E(XY) - E(X)E(Y) \\ +\operatorname{Cov}(X,Y) &= E[(X-E(X))(Y-E(Y))] = E(XY) - E(X)E(Y) \\ 
 &= \sum_{x,y}p(x,y)xy - \left(\sum_xp(x)x\right)\cdot \left(\sum_yp(y)y\right) = \sum_{x,y}\left[p(x,y)-p(x)p(y)\right]xy &= \sum_{x,y}p(x,y)xy - \left(\sum_xp(x)x\right)\cdot \left(\sum_yp(y)y\right) = \sum_{x,y}\left[p(x,y)-p(x)p(y)\right]xy
 \end{align*} \end{align*}
Line 11: Line 13:
  
 (Gewichtete Summe des Produkts aus x und y) (Gewichtete Summe des Produkts aus x und y)
 +
 +===== Schätzung =====
 +Stichprobenkovarianz als erwartungstreue Schätzung der Kovarianz einer Grundgesamtheit.
 +
 +$$s_{xy} := \frac{1}{n} \sum^n_{i=1}(x_i-\bar{x})(y_i-\bar{y})$$
 +
 +Korrigierte Stichprobenkovarianz (ewartungstreu):
 +
 +
 +$$s_{xy} := \frac{1}{n-1} \sum^n_{i=1}(x_i-\bar{x})(y_i-\bar{y})$$
  
 ====== Mutual information ====== ====== Mutual information ======
Line 28: Line 40:
  
 Total Correlation als **multivariate** Generalisierung von MI. Total Correlation als **multivariate** Generalisierung von MI.
 +
 +===== Schätzung =====
 +
 +Schätzung der Joint Distribution $p(x,y)$ aus empirischen Daten. Histogramme der Verteilung der Attribute. Bins des Histogramms wird so gewählt, dass Randverteilung fast gleichverteilt sind. Anzahl der Bins wurde so gewählt, dass die bias-korrigierte Information von jeder Zelle maximiert wird (Treves and Panzeri 1995, Nelken et al. 2005).
 +
 +Solange die Samplezahl sehr viel größer ist als die Anzahl der Bins erhält man mit der Verwendung der empirischen Verteilung $\hat{p}$ eine gute Schätzung:
 +
 +\begin{align*}
 +I(\hat{p}(X;Y)) &=\sum_{x,y}\hat{p}(x,y)\left[\log \hat{p}(x,y)-\log \hat{p}(x)\hat{p}(y)\right]
 +\end{align*}
 +
 +Wobei $\hat{p}(x) = \sum_x \hat{p}(x,y)$ als empirische Randverteilungen verwendet werden.
 +
 +Der Schätzer besitzt einen positiven Bias, der aber verbessert werden kann (http://ai.stanford.edu/~gal/Research/Redundancy-Reduction/Neuron_suppl/node2.html).
  
 ====== Total correlation ====== ====== Total correlation ======
  • data_mining/correlation.txt
  • Last modified: 2017/08/06 23:49
  • by phreazer