Differences
This shows you the differences between two versions of the page.
Both sides previous revisionPrevious revisionNext revision | Previous revision | ||
data_mining:correlation [2015/08/20 00:18] – phreazer | data_mining:correlation [2017/08/06 21:49] (current) – phreazer | ||
---|---|---|---|
Line 1: | Line 1: | ||
====== Correlation ====== | ====== Correlation ====== | ||
+ | Covarianz (nicht-standardisierter Pearson Korrelationskoeffizient) | ||
+ | Lineare Abhängigkeiten. | ||
+ | < | ||
+ | \begin{align*} | ||
+ | \operatorname{Cov}(X, | ||
+ | &= \sum_{x, | ||
+ | \end{align*} | ||
+ | </ | ||
+ | |||
+ | (Gewichtete Summe des Produkts aus x und y) | ||
+ | |||
+ | ===== Schätzung ===== | ||
+ | Stichprobenkovarianz als erwartungstreue Schätzung der Kovarianz einer Grundgesamtheit. | ||
+ | |||
+ | $$s_{xy} := \frac{1}{n} \sum^n_{i=1}(x_i-\bar{x})(y_i-\bar{y})$$ | ||
+ | |||
+ | Korrigierte Stichprobenkovarianz (ewartungstreu): | ||
+ | |||
+ | |||
+ | $$s_{xy} := \frac{1}{n-1} \sum^n_{i=1}(x_i-\bar{x})(y_i-\bar{y})$$ | ||
+ | |||
+ | ====== Mutual information ====== | ||
+ | Ähnlichkeit zwischen Joint Probability Distribution (multivar. Verteilung) $p(X,Y)$ und der Produkte der Mariginal Distribution (Randverteilungen) $p(X), | ||
+ | < | ||
+ | \begin{align*} | ||
+ | I(X;Y) &= E\left (\log \frac{p(x, | ||
+ | & | ||
+ | \end{align*} | ||
+ | </ | ||
+ | |||
+ | (Gewichtete Summe der multivariaten Verteilung von x und y.) | ||
+ | |||
+ | Wenn X und Y unabhängig sind, dann kann aus X keine Informationen über Y abgeleitet werden. Wenn X und Y unabhängig, | ||
+ | |||
+ | $$I(X;Y) = H(X) - H(X|Y)$$ | ||
+ | |||
+ | Total Correlation als **multivariate** Generalisierung von MI. | ||
+ | |||
+ | ===== Schätzung ===== | ||
+ | |||
+ | Schätzung der Joint Distribution $p(x,y)$ aus empirischen Daten. Histogramme der Verteilung der Attribute. Bins des Histogramms wird so gewählt, dass Randverteilung fast gleichverteilt sind. Anzahl der Bins wurde so gewählt, dass die bias-korrigierte Information von jeder Zelle maximiert wird (Treves and Panzeri 1995, Nelken et al. 2005). | ||
+ | |||
+ | Solange die Samplezahl sehr viel größer ist als die Anzahl der Bins erhält man mit der Verwendung der empirischen Verteilung $\hat{p}$ eine gute Schätzung: | ||
+ | |||
+ | \begin{align*} | ||
+ | I(\hat{p}(X; | ||
+ | \end{align*} | ||
+ | |||
+ | Wobei $\hat{p}(x) = \sum_x \hat{p}(x, | ||
+ | Der Schätzer besitzt einen positiven Bias, der aber verbessert werden kann (http:// | ||
====== Total correlation ====== | ====== Total correlation ====== | ||
Line 20: | Line 70: | ||
Die maximale totale Correlation tritt auf, wenn eine Variable alle anderen Variabeln bestimmen kann. | Die maximale totale Correlation tritt auf, wenn eine Variable alle anderen Variabeln bestimmen kann. | ||
- | ====== | + | ====== |
- | Ähnlichkeit zwischen Joint Probability Distribution (multivar. Verteilung) $p(X,Y)$ und der Produkte der Mariginal Distribution (Randverteilungen) $p(X), | + | |
- | \begin{align*} | + | See https://en.wikipedia.org/ |
- | I(X;Y) &= E\left (\log \frac{p(x, | + | |
- | \end{align*} | + | |
- | + | ||
- | Wenn X und Y unabhängig sind, dann kann aus X keine Informationen über Y abgeleitet werden. Wenn X und Y unabhängig, | + | |
- | $$I(X;Y) = H(X) - H(X|Y)$$ | ||
- | |||
- | Total Correlation als **multivariate** Generalisierung von MI. |