Differences

This shows you the differences between two versions of the page.

--- data_mining:correlation [2015/08/20 16:31] – [Schätzung] phreazer
+++ data_mining:correlation [2015/08/20 16:35] – [Schätzung] phreazer
@@ Line 45: / Line 45: @@
 Solange die Samplezahl sehr viel größer ist als die Anzahl der Bins erhält man mit der Verwendung der empirischen Verteilung $\hat{p}$ eine gute Schätzung:
+\begin{align*}
+I(\hat{p}(X;Y)) &=\sum_{x,y}\hat{p}(x,y)\left[\log \hat{p}(x,y)-\log \hat{p}(x)\hat{p}(y)\right]
+\end{align*}
+Wobei $\hat{p}(x) = \sum_x \hat{p}(x,y)$ als empirische Randverteilungen verwendet werden.
+Der Schätzer besitzt einen positiven Bias, der aber verbessert werden kann (http://ai.stanford.edu/~gal/Research/Redundancy-Reduction/Neuron_suppl/node2.html).
 ====== Total correlation ======