Differences

This shows you the differences between two versions of the page.

--- data_mining:correlation [2015/08/20 13:04] – [Mutual information] phreazer
+++ data_mining:correlation [2017/08/06 21:49] (current) – phreazer
@@ Line 2: / Line 2: @@
 Covarianz (nicht-standardisierter Pearson Korrelationskoeffizient)
+Lineare Abhängigkeiten.
 <nowiki>
 \begin{align*}
-\operatorname{Cov}(X,Y) &= E(XY) - E(X)E(Y) \\
+\operatorname{Cov}(X,Y) &= E[(X-E(X))(Y-E(Y))] = E(XY) - E(X)E(Y) \\
 &= \sum_{x,y}p(x,y)xy - \left(\sum_xp(x)x\right)\cdot \left(\sum_yp(y)y\right) = \sum_{x,y}\left[p(x,y)-p(x)p(y)\right]xy
 \end{align*}
@@ Line 11: / Line 13: @@
 (Gewichtete Summe des Produkts aus x und y)
+===== Schätzung =====
+Stichprobenkovarianz als erwartungstreue Schätzung der Kovarianz einer Grundgesamtheit.
+$$s_{xy} := \frac{1}{n} \sum^n_{i=1}(x_i-\bar{x})(y_i-\bar{y})$$
+Korrigierte Stichprobenkovarianz (ewartungstreu):
+$$s_{xy} := \frac{1}{n-1} \sum^n_{i=1}(x_i-\bar{x})(y_i-\bar{y})$$
 ====== Mutual information ======
@@ Line 28: / Line 40: @@
 Total Correlation als **multivariate** Generalisierung von MI.
+===== Schätzung =====
+Schätzung der Joint Distribution $p(x,y)$ aus empirischen Daten. Histogramme der Verteilung der Attribute. Bins des Histogramms wird so gewählt, dass Randverteilung fast gleichverteilt sind. Anzahl der Bins wurde so gewählt, dass die bias-korrigierte Information von jeder Zelle maximiert wird (Treves and Panzeri 1995, Nelken et al. 2005).
+Solange die Samplezahl sehr viel größer ist als die Anzahl der Bins erhält man mit der Verwendung der empirischen Verteilung $\hat{p}$ eine gute Schätzung:
+\begin{align*}
+I(\hat{p}(X;Y)) &=\sum_{x,y}\hat{p}(x,y)\left[\log \hat{p}(x,y)-\log \hat{p}(x)\hat{p}(y)\right]
+\end{align*}
+Wobei $\hat{p}(x) = \sum_x \hat{p}(x,y)$ als empirische Randverteilungen verwendet werden.
+Der Schätzer besitzt einen positiven Bias, der aber verbessert werden kann (http://ai.stanford.edu/~gal/Research/Redundancy-Reduction/Neuron_suppl/node2.html).
 ====== Total correlation ======
@@ Line 43: / Line 69: @@
 Die maximale totale Correlation tritt auf, wenn eine Variable alle anderen Variabeln bestimmen kann.
+====== Correlation for categorial values ======
+See https://en.wikipedia.org/wiki/Polychoric_correlation