data_mining:correlation

This is an old revision of the document!


Correlation

Covarianz (nicht-standardisierter Pearson Korrelationskoeffizient)

\begin{align*} \operatorname{Cov}(X,Y) &= E(XY) - E(X)E(Y) \\ &= \sum_{x,y}p(x,y)xy - \left(\sum_xp(x)x\right)\cdot \left(\sum_yp(y)y\right) = \sum_{x,y}\left[p(x,y)-p(x)p(y)\right]xy \end{align*}

(Gewichtete Summe des Produkts aus x und y)

Stichprobenkovarianz als erwartungstreue Schätzung der Kovarianz einer Grundgesamtheit.

$$s_{xy} := \frac{1}{n} \sum^n_{i=1}(x_i-\bar{x})(y_i-\bar{y})$$

Korrigierte Stichprobenkovarianz (ewartungstreu):

$$s_{xy} := \frac{1}{n-1} \sum^n_{i=1}(x_i-\bar{x})(y_i-\bar{y})$$

Mutual information

Ähnlichkeit zwischen Joint Probability Distribution (multivar. Verteilung) $p(X,Y)$ und der Produkte der Mariginal Distribution (Randverteilungen) $p(X),p(Y)$. \begin{align*} I(X;Y) &= E\left (\log \frac{p(x,y)}{p(x)p(y)}\right) = \sum_{y \in Y} \sum_{x \in X} p(x,y) \log \left(\frac{p(x,y)}{p(x)p(y)}\right)\\ &=\sum_{x,y}p(x,y)\left[\log p(x,y)-\log p(x)p(y)\right] \end{align*}

(Gewichtete Summe der multivariaten Verteilung von x und y.)

Wenn X und Y unabhängig sind, dann kann aus X keine Informationen über Y abgeleitet werden. Wenn X und Y unabhängig, dann $p(x,y) = p(x) p(y)$ und $MI = 0$.

$$I(X;Y) = H(X) - H(X|Y)$$

Total Correlation als multivariate Generalisierung von MI.

Total correlation

  • Geht auf Watanabe 1960 zurück.
  • Generalisierung der Mutual Information.
  • Quantifiziert die Redundanz oder Abhängigkeit einer Menge von $n$ Zufallsvariablen.

Für eine Menge von ZVs $\{X_1,...,X_n\}$ ist die Total Correlation definiert als die Kullback-Leibler-Divergenz (Information Gain) der multi-variaten Verteilung (jpd) $p(X_1, ..., X_n)$ und der unabhängigen Verteilung $p(X_1)p(X_2)...p(X_n)$.

$$C(X_1,...,X_n) = \sum_{i=1}^n H(X_i) - H(X_1, X_2, ..., X_n)$$

wobei $H(X_i)$ die Entropie von $X_i$ und $H(X_1,...,X_n)$ die gemeinsame Entropie (joint entropie) der Variablen $\{X_1,...,X_n\}$ ist.

Die totale Correlation gibt die Menge der Informationen an, die unter den Variablen einer Menge geteilt wird. $ \sum_{i=1}^n H(X_i)$ entspricht der Anzahl der bits, wenn die Variablen unabhängig voneinander wären. $H(X_1,...,X_n)$ ist die tatsächliche Anzahl der Informationen der Variablen, oder die durchschnittliche Codelänge, um die Werte aller Variablen zu übertragen, wenn die Menge der Variablen optimal kodiert ist. Die Differenz beider Terme repräsentiert die absolute Redundanz.

Die maximale totale Correlation tritt auf, wenn eine Variable alle anderen Variabeln bestimmen kann.

  • data_mining/correlation.1440076744.txt.gz
  • Last modified: 2015/08/20 15:19
  • by phreazer