Differences
This shows you the differences between two versions of the page.
Both sides previous revisionPrevious revisionNext revision | Previous revision | ||
data_mining:anomaly_detection [2014/08/30 12:47] – [Feature selection] phreazer | data_mining:anomaly_detection [2014/08/30 15:00] (current) – [Schätzung von $\mu, \sigma$ (Normalverteilung)] phreazer | ||
---|---|---|---|
Line 7: | Line 7: | ||
===== Schätzung von $\mu, \sigma$ (Normalverteilung) ==== | ===== Schätzung von $\mu, \sigma$ (Normalverteilung) ==== | ||
- | $\mu_j = 1/m \sum_{i=1}^m x_j^{(i)}$ | + | $\mu_j = \frac{1}{m} \sum_{i=1}^m x_j^{(i)}$ |
Vektorisierbar als $\mu = 1/m \sum_{i=1}^m x^{(i)}$ | Vektorisierbar als $\mu = 1/m \sum_{i=1}^m x^{(i)}$ | ||
- | $\sigma^2_j = 1/m \sum^m_{i=1} (x_j^{(i)}-\mu_j)^2$ | + | $\sigma^2_j = \frac{1}{m} \sum^m_{i=1} (x_j^{(i)}-\mu_j)^2$ |
===== Evaluierung durch Kennzahl ===== | ===== Evaluierung durch Kennzahl ===== | ||
Line 47: | Line 47: | ||
Anomaly betrachten und Features entwickeln, bei denen die Anomaly außerhalb liegt. | Anomaly betrachten und Features entwickeln, bei denen die Anomaly außerhalb liegt. | ||
+ | |||
+ | ===== Multivariate Normal Distribution ===== | ||
+ | |||
+ | Nicht $p(x_n)$ modellieren, | ||
+ | |||
+ | Parameter: | ||
+ | $\mu$ | ||
+ | Crosscorrelation Matrix: $\Sigma \in \mathbb{R}^{n \times n}$ | ||
+ | |||
+ | Vorteilhaft, | ||
+ | |||
+ | ==== Schätzung ==== | ||
+ | - Fitten des Models durch Schätzung von $\mu, | ||
+ | - p(x) berechnen | ||
+ | * Anomaly flaggen wenn $p(x) < \epsilon$ | ||
+ | |||
+ | Unterschied zu vorherigem Modell: $\Sigma$ kann hier von 0 verschiedene Werte für nicht-diagonal Elemente besitzen. | ||
+ | |||
+ | Ursprüngliches Modell: | ||
+ | * Wenn manuell Features erzeugt werden, die ungewöhnliche Kombinationen beinhalten $x_3=x_1/ | ||
+ | * Weniger | ||
+ | * Geeignet auch wenn m klein (Multivar. muss m > n haben) |