data_mining:correlation

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
data_mining:correlation [2015/08/20 02:00] phreazerdata_mining:correlation [2017/08/06 23:49] (current) phreazer
Line 1: Line 1:
 +====== Correlation ======
 +
 +Covarianz (nicht-standardisierter Pearson Korrelationskoeffizient)
 +
 +Lineare Abhängigkeiten.
 +
 +<nowiki>
 +\begin{align*}
 +\operatorname{Cov}(X,Y) &= E[(X-E(X))(Y-E(Y))] = E(XY) - E(X)E(Y) \\ 
 +&= \sum_{x,y}p(x,y)xy - \left(\sum_xp(x)x\right)\cdot \left(\sum_yp(y)y\right) = \sum_{x,y}\left[p(x,y)-p(x)p(y)\right]xy
 +\end{align*}
 +</nowiki>
 +
 +(Gewichtete Summe des Produkts aus x und y)
 +
 +===== Schätzung =====
 +Stichprobenkovarianz als erwartungstreue Schätzung der Kovarianz einer Grundgesamtheit.
 +
 +$$s_{xy} := \frac{1}{n} \sum^n_{i=1}(x_i-\bar{x})(y_i-\bar{y})$$
 +
 +Korrigierte Stichprobenkovarianz (ewartungstreu):
 +
 +
 +$$s_{xy} := \frac{1}{n-1} \sum^n_{i=1}(x_i-\bar{x})(y_i-\bar{y})$$
 +
 +====== Mutual information ======
 +Ähnlichkeit zwischen Joint Probability Distribution (multivar. Verteilung) $p(X,Y)$ und der Produkte der Mariginal Distribution (Randverteilungen) $p(X),p(Y)$.
 +<nowiki>
 +\begin{align*}
 +I(X;Y) &= E\left (\log \frac{p(x,y)}{p(x)p(y)}\right) = \sum_{y \in Y} \sum_{x \in X} p(x,y) \log \left(\frac{p(x,y)}{p(x)p(y)}\right)\\
 +       &=\sum_{x,y}p(x,y)\left[\log p(x,y)-\log p(x)p(y)\right]
 +\end{align*}
 +</nowiki>
 +
 +(Gewichtete Summe der multivariaten Verteilung von x und y.)
 +
 +Wenn X und Y unabhängig sind, dann kann aus X keine Informationen über Y abgeleitet werden. Wenn X und Y unabhängig, dann $p(x,y) = p(x) p(y)$ und $MI = 0$.
 +
 +$$I(X;Y) = H(X) - H(X|Y)$$
 +
 +Total Correlation als **multivariate** Generalisierung von MI.
 +
 +===== Schätzung =====
 +
 +Schätzung der Joint Distribution $p(x,y)$ aus empirischen Daten. Histogramme der Verteilung der Attribute. Bins des Histogramms wird so gewählt, dass Randverteilung fast gleichverteilt sind. Anzahl der Bins wurde so gewählt, dass die bias-korrigierte Information von jeder Zelle maximiert wird (Treves and Panzeri 1995, Nelken et al. 2005).
 +
 +Solange die Samplezahl sehr viel größer ist als die Anzahl der Bins erhält man mit der Verwendung der empirischen Verteilung $\hat{p}$ eine gute Schätzung:
 +
 +\begin{align*}
 +I(\hat{p}(X;Y)) &=\sum_{x,y}\hat{p}(x,y)\left[\log \hat{p}(x,y)-\log \hat{p}(x)\hat{p}(y)\right]
 +\end{align*}
 +
 +Wobei $\hat{p}(x) = \sum_x \hat{p}(x,y)$ als empirische Randverteilungen verwendet werden.
 +
 +Der Schätzer besitzt einen positiven Bias, der aber verbessert werden kann (http://ai.stanford.edu/~gal/Research/Redundancy-Reduction/Neuron_suppl/node2.html).
 +
 ====== Total correlation ====== ====== Total correlation ======
-Geht auf Watanabe 1960 zurück +  * Geht auf Watanabe 1960 zurück. 
-Generalisierung der Mutual Information. +  Generalisierung der Mutual Information. 
-Quantifiziert die Redundanz oder Abhängigkeit einer Menge von $n$ Zufallsvariablen.+  Quantifiziert die Redundanz oder Abhängigkeit einer Menge von $n$ Zufallsvariablen.
  
-Für eine Menge von ZVs $\{X_1,...,X_n\}$ ist die Total Correlation definiert als die Kullback-Leibler Divergenz (Information Gain) der multi-variaten Verteilung (joint distribution) $p(X_1, ..., X_n)$ und der unabhängigen Verteilung $p(X_1)p(X_2)...p(X_n)$.+Für eine Menge von ZVs $\{X_1,...,X_n\}$ ist die Total Correlation definiert als die Kullback-Leibler-Divergenz (Information Gain) der multi-variaten Verteilung (jpd) $p(X_1, ..., X_n)$ und der unabhängigen Verteilung $p(X_1)p(X_2)...p(X_n)$.
  
 $$C(X_1,...,X_n) = \sum_{i=1}^n H(X_i) - H(X_1, X_2, ..., X_n)$$ $$C(X_1,...,X_n) = \sum_{i=1}^n H(X_i) - H(X_1, X_2, ..., X_n)$$
Line 14: Line 70:
 Die maximale totale Correlation tritt auf, wenn eine Variable alle anderen Variabeln bestimmen kann. Die maximale totale Correlation tritt auf, wenn eine Variable alle anderen Variabeln bestimmen kann.
  
-====== Mutual information ====== +====== Correlation for categorial values ======
-Ähnlichkeit zwischen Joint Distribution $p(X,Y)$ und der Produkte der Mariginal Distribution (Randverteilung) $p(X),p(Y)$.+
  
-$$I(X;Y) = \sum_{y \in Y} \sum_{x \in X} p(x,y) \log(\frac{p(x,y)}{p(x)p(y)})$$ +See https://en.wikipedia.org/wiki/Polychoric_correlation
- +
-Wenn X und Y unabhängig sind, dann kann aus X keine Informationen über Y abgeleitet werdenWenn X und Y unabhängig, dann p(x,y) = p(x) p(y) und MI = 0. +
- +
-$$I(X;Y) = H(X) - H(X|Y)$$+
  
-Total Correlation als multivariate Generalisierung von MI. 
  • data_mining/correlation.1440028819.txt.gz
  • Last modified: 2015/08/20 02:00
  • by phreazer