data_mining:correlation

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
data_mining:correlation [2015/08/20 02:16] – [Mutual information] phreazerdata_mining:correlation [2017/08/06 23:49] (current) phreazer
Line 1: Line 1:
 ====== Correlation ====== ====== Correlation ======
  
 +Covarianz (nicht-standardisierter Pearson Korrelationskoeffizient)
  
 +Lineare Abhängigkeiten.
  
 +<nowiki>
 +\begin{align*}
 +\operatorname{Cov}(X,Y) &= E[(X-E(X))(Y-E(Y))] = E(XY) - E(X)E(Y) \\ 
 +&= \sum_{x,y}p(x,y)xy - \left(\sum_xp(x)x\right)\cdot \left(\sum_yp(y)y\right) = \sum_{x,y}\left[p(x,y)-p(x)p(y)\right]xy
 +\end{align*}
 +</nowiki>
  
 +(Gewichtete Summe des Produkts aus x und y)
  
-====== Total correlation ====== +===== Schätzung ===== 
-Geht auf Watanabe 1960 zurück +Stichprobenkovarianz als erwartungstreue Schätzung der Kovarianz einer Grundgesamtheit.
-Generalisierung der Mutual Information. +
-Quantifiziert die Redundanz oder Abhängigkeit einer Menge von $n$ Zufallsvariablen.+
  
-Für eine Menge von ZVs $\{X_1,...,X_n\}$ ist die Total Correlation definiert als die Kullback-Leibler Divergenz (Information Gain) der multi-variaten Verteilung (joint distribution$p(X_1, ..., X_n)$ und der unabhängigen Verteilung $p(X_1)p(X_2)...p(X_n)$.+$$s_{xy} := \frac{1}{n} \sum^n_{i=1}(x_i-\bar{x})(y_i-\bar{y})$$
  
-$$C(X_1,...,X_n= \sum_{i=1}^n H(X_i) - H(X_1, X_2, ..., X_n)$$+Korrigierte Stichprobenkovarianz (ewartungstreu):
  
-wobei $H(X_i)$ die Entropie von $X_i$ und $H(X_1,...,X_n)$ die gemeinsame Entropie (joint entropie) der Variablen $\{X_1,...,X_n\}$ ist. 
  
-Die totale Correlation gibt die Menge der Informationen an, die unter den Variablen einer Menge geteilt wird. $ \sum_{i=1}^n H(X_i)$ entspricht der Anzahl der bits, wenn die Variablen unabhängig voneinander wären. $H(X_1,...,X_n)$ ist die tatsächliche Anzahl der Informationen der Variablen, oder die durchschnittliche Codelänge, um die Werte aller Variablen zu übertragen, wenn die Menge der Variablen optimal kodiert ist. Die Differenz beider Terme repräsentiert die absolute Redundanz. +$$s_{xy} := \frac{1}{n-1} \sum^n_{i=1}(x_i-\bar{x})(y_i-\bar{y})$$
- +
-Die maximale totale Correlation tritt auf, wenn eine Variable alle anderen Variabeln bestimmen kann.+
  
 ====== Mutual information ====== ====== Mutual information ======
 Ähnlichkeit zwischen Joint Probability Distribution (multivar. Verteilung) $p(X,Y)$ und der Produkte der Mariginal Distribution (Randverteilungen) $p(X),p(Y)$. Ähnlichkeit zwischen Joint Probability Distribution (multivar. Verteilung) $p(X,Y)$ und der Produkte der Mariginal Distribution (Randverteilungen) $p(X),p(Y)$.
 +<nowiki>
 \begin{align*} \begin{align*}
-I(X;Y) &= E\left (\log \frac{p(x,y)}{p(x)p(y)}\right) = \sum_{y \in Y} \sum_{x \in X} p(x,y) \log \left(\frac{p(x,y)}{p(x)p(y)}\right)\\       &=\sum_{x,y}p(x,y)\left[\log p(x,y)-\log p(x)p(y)\right]+I(X;Y) &= E\left (\log \frac{p(x,y)}{p(x)p(y)}\right) = \sum_{y \in Y} \sum_{x \in X} p(x,y) \log \left(\frac{p(x,y)}{p(x)p(y)}\right)\\ 
 +       &=\sum_{x,y}p(x,y)\left[\log p(x,y)-\log p(x)p(y)\right]
 \end{align*} \end{align*}
 +</nowiki>
 +
 +(Gewichtete Summe der multivariaten Verteilung von x und y.)
  
 Wenn X und Y unabhängig sind, dann kann aus X keine Informationen über Y abgeleitet werden. Wenn X und Y unabhängig, dann $p(x,y) = p(x) p(y)$ und $MI = 0$. Wenn X und Y unabhängig sind, dann kann aus X keine Informationen über Y abgeleitet werden. Wenn X und Y unabhängig, dann $p(x,y) = p(x) p(y)$ und $MI = 0$.
Line 32: Line 40:
  
 Total Correlation als **multivariate** Generalisierung von MI. Total Correlation als **multivariate** Generalisierung von MI.
 +
 +===== Schätzung =====
 +
 +Schätzung der Joint Distribution $p(x,y)$ aus empirischen Daten. Histogramme der Verteilung der Attribute. Bins des Histogramms wird so gewählt, dass Randverteilung fast gleichverteilt sind. Anzahl der Bins wurde so gewählt, dass die bias-korrigierte Information von jeder Zelle maximiert wird (Treves and Panzeri 1995, Nelken et al. 2005).
 +
 +Solange die Samplezahl sehr viel größer ist als die Anzahl der Bins erhält man mit der Verwendung der empirischen Verteilung $\hat{p}$ eine gute Schätzung:
 +
 +\begin{align*}
 +I(\hat{p}(X;Y)) &=\sum_{x,y}\hat{p}(x,y)\left[\log \hat{p}(x,y)-\log \hat{p}(x)\hat{p}(y)\right]
 +\end{align*}
 +
 +Wobei $\hat{p}(x) = \sum_x \hat{p}(x,y)$ als empirische Randverteilungen verwendet werden.
 +
 +Der Schätzer besitzt einen positiven Bias, der aber verbessert werden kann (http://ai.stanford.edu/~gal/Research/Redundancy-Reduction/Neuron_suppl/node2.html).
 +
 +====== Total correlation ======
 +  * Geht auf Watanabe 1960 zurück.
 +  * Generalisierung der Mutual Information.
 +  * Quantifiziert die Redundanz oder Abhängigkeit einer Menge von $n$ Zufallsvariablen.
 +
 +Für eine Menge von ZVs $\{X_1,...,X_n\}$ ist die Total Correlation definiert als die Kullback-Leibler-Divergenz (Information Gain) der multi-variaten Verteilung (jpd) $p(X_1, ..., X_n)$ und der unabhängigen Verteilung $p(X_1)p(X_2)...p(X_n)$.
 +
 +$$C(X_1,...,X_n) = \sum_{i=1}^n H(X_i) - H(X_1, X_2, ..., X_n)$$
 +
 +wobei $H(X_i)$ die Entropie von $X_i$ und $H(X_1,...,X_n)$ die gemeinsame Entropie (joint entropie) der Variablen $\{X_1,...,X_n\}$ ist.
 +
 +Die totale Correlation gibt die Menge der Informationen an, die unter den Variablen einer Menge geteilt wird. $ \sum_{i=1}^n H(X_i)$ entspricht der Anzahl der bits, wenn die Variablen unabhängig voneinander wären. $H(X_1,...,X_n)$ ist die tatsächliche Anzahl der Informationen der Variablen, oder die durchschnittliche Codelänge, um die Werte aller Variablen zu übertragen, wenn die Menge der Variablen optimal kodiert ist. Die Differenz beider Terme repräsentiert die absolute Redundanz.
 +
 +Die maximale totale Correlation tritt auf, wenn eine Variable alle anderen Variabeln bestimmen kann.
 +
 +====== Correlation for categorial values ======
 +
 +See https://en.wikipedia.org/wiki/Polychoric_correlation
 +
  • data_mining/correlation.1440029818.txt.gz
  • Last modified: 2015/08/20 02:16
  • by phreazer