data_mining:correlation

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
data_mining:correlation [2015/08/20 15:04] – [Mutual information] phreazerdata_mining:correlation [2017/08/06 23:49] (current) phreazer
Line 2: Line 2:
  
 Covarianz (nicht-standardisierter Pearson Korrelationskoeffizient) Covarianz (nicht-standardisierter Pearson Korrelationskoeffizient)
 +
 +Lineare Abhängigkeiten.
  
 <nowiki> <nowiki>
 \begin{align*} \begin{align*}
-\operatorname{Cov}(X,Y) &= E(XY) - E(X)E(Y) \\ +\operatorname{Cov}(X,Y) &= E[(X-E(X))(Y-E(Y))] = E(XY) - E(X)E(Y) \\ 
 &= \sum_{x,y}p(x,y)xy - \left(\sum_xp(x)x\right)\cdot \left(\sum_yp(y)y\right) = \sum_{x,y}\left[p(x,y)-p(x)p(y)\right]xy &= \sum_{x,y}p(x,y)xy - \left(\sum_xp(x)x\right)\cdot \left(\sum_yp(y)y\right) = \sum_{x,y}\left[p(x,y)-p(x)p(y)\right]xy
 \end{align*} \end{align*}
Line 11: Line 13:
  
 (Gewichtete Summe des Produkts aus x und y) (Gewichtete Summe des Produkts aus x und y)
 +
 +===== Schätzung =====
 +Stichprobenkovarianz als erwartungstreue Schätzung der Kovarianz einer Grundgesamtheit.
 +
 +$$s_{xy} := \frac{1}{n} \sum^n_{i=1}(x_i-\bar{x})(y_i-\bar{y})$$
 +
 +Korrigierte Stichprobenkovarianz (ewartungstreu):
 +
 +
 +$$s_{xy} := \frac{1}{n-1} \sum^n_{i=1}(x_i-\bar{x})(y_i-\bar{y})$$
  
 ====== Mutual information ====== ====== Mutual information ======
Line 28: Line 40:
  
 Total Correlation als **multivariate** Generalisierung von MI. Total Correlation als **multivariate** Generalisierung von MI.
 +
 +===== Schätzung =====
 +
 +Schätzung der Joint Distribution $p(x,y)$ aus empirischen Daten. Histogramme der Verteilung der Attribute. Bins des Histogramms wird so gewählt, dass Randverteilung fast gleichverteilt sind. Anzahl der Bins wurde so gewählt, dass die bias-korrigierte Information von jeder Zelle maximiert wird (Treves and Panzeri 1995, Nelken et al. 2005).
 +
 +Solange die Samplezahl sehr viel größer ist als die Anzahl der Bins erhält man mit der Verwendung der empirischen Verteilung $\hat{p}$ eine gute Schätzung:
 +
 +\begin{align*}
 +I(\hat{p}(X;Y)) &=\sum_{x,y}\hat{p}(x,y)\left[\log \hat{p}(x,y)-\log \hat{p}(x)\hat{p}(y)\right]
 +\end{align*}
 +
 +Wobei $\hat{p}(x) = \sum_x \hat{p}(x,y)$ als empirische Randverteilungen verwendet werden.
 +
 +Der Schätzer besitzt einen positiven Bias, der aber verbessert werden kann (http://ai.stanford.edu/~gal/Research/Redundancy-Reduction/Neuron_suppl/node2.html).
  
 ====== Total correlation ====== ====== Total correlation ======
Line 43: Line 69:
  
 Die maximale totale Correlation tritt auf, wenn eine Variable alle anderen Variabeln bestimmen kann. Die maximale totale Correlation tritt auf, wenn eine Variable alle anderen Variabeln bestimmen kann.
 +
 +====== Correlation for categorial values ======
 +
 +See https://en.wikipedia.org/wiki/Polychoric_correlation
 +
  • data_mining/correlation.1440075877.txt.gz
  • Last modified: 2015/08/20 15:04
  • by phreazer