Differences

This shows you the differences between two versions of the page.

--- data_mining:anomaly_detection [2014/08/30 12:47] – [Feature selection] phreazer
+++ data_mining:anomaly_detection [2014/08/30 15:00] (current) – [Schätzung von $\mu, \sigma$ (Normalverteilung)] phreazer
@@ Line 7: / Line 7: @@
 ===== Schätzung von $\mu, \sigma$ (Normalverteilung) ====
-$\mu_j = 1/m \sum_{i=1}^m x_j^{(i)}$
+$\mu_j = \frac{1}{m} \sum_{i=1}^m x_j^{(i)}$
 Vektorisierbar als $\mu = 1/m \sum_{i=1}^m x^{(i)}$
-$\sigma^2_j = 1/m \sum^m_{i=1} (x_j^{(i)}-\mu_j)^2$
+$\sigma^2_j = \frac{1}{m} \sum^m_{i=1} (x_j^{(i)}-\mu_j)^2$
 ===== Evaluierung durch Kennzahl =====
@@ Line 47: / Line 47: @@
 Anomaly betrachten und Features entwickeln, bei denen die Anomaly außerhalb liegt.
+===== Multivariate Normal Distribution =====
+Nicht $p(x_n)$ modellieren, sonden ein Model $p(x)$ als Ganzes
+Parameter:
+$\mu$
+Crosscorrelation Matrix: $\Sigma \in \mathbb{R}^{n \times n}$
+Vorteilhaft, wenn Features positiv/negativ korreliert.
+==== Schätzung ====
+  - Fitten des Models durch Schätzung von $\mu,\Sigma$
+  - p(x) berechnen
+    * Anomaly flaggen wenn $p(x) < \epsilon$
+Unterschied zu vorherigem Modell: $\Sigma$ kann hier von 0 verschiedene Werte für nicht-diagonal Elemente besitzen.
+Ursprüngliches Modell:
+  * Wenn manuell Features erzeugt werden, die ungewöhnliche Kombinationen beinhalten $x_3=x_1/x_2$
+  * Weniger  Rechenintensiv (n = 10000 bis 100000)
+  * Geeignet auch wenn m klein (Multivar. muss m > n haben)