Differences
This shows you the differences between two versions of the page.
Both sides previous revisionPrevious revisionNext revision | Previous revisionLast revisionBoth sides next revision | ||
data_mining:anomaly_detection [2014/08/30 14:45] – [Anomaly detection vs. supervised learning] phreazer | data_mining:anomaly_detection [2014/08/30 17:00] – [Multivariate Normal Distribution] phreazer | ||
---|---|---|---|
Line 42: | Line 42: | ||
===== Feature selection ===== | ===== Feature selection ===== | ||
Histogramm der Daten plotten, wenn es wie eine Normalverteilung aussieht, kann Feature verwendet werden. | Histogramm der Daten plotten, wenn es wie eine Normalverteilung aussieht, kann Feature verwendet werden. | ||
- | Logarithmische Transformation möglich $log(x+c)$ oder $x^(1/2)$ | + | Logarithmische Transformation möglich $log(x+c)$ oder $x^{(1/2)}$ |
Häufigstes Problem: $p(x)$ ist ähnlich für normale und anormale Beispiele | Häufigstes Problem: $p(x)$ ist ähnlich für normale und anormale Beispiele | ||
+ | |||
+ | Anomaly betrachten und Features entwickeln, bei denen die Anomaly außerhalb liegt. | ||
+ | |||
+ | ===== Multivariate Normal Distribution ===== | ||
+ | |||
+ | Nicht $p(x_n)$ modellieren, | ||
+ | |||
+ | Parameter: | ||
+ | $\mu$ | ||
+ | Crosscorrelation Matrix: $\Sigma \in \mathbb{R}^{n \times n}$ | ||
+ | |||
+ | Vorteilhaft, | ||
+ | |||
+ | ==== Schätzung ==== | ||
+ | - Fitten des Models durch Schätzung von $\mu, | ||
+ | - p(x) berechnen | ||
+ | * Anomaly flaggen wenn $p(x) < \epsilon$ | ||
+ | |||
+ | Unterschied zu vorherigem Modell: $\Sigma$ kann hier von 0 verschiedene Werte für nicht-diagonal Elemente besitzen. | ||
+ | |||
+ | Ursprüngliches Modell: | ||
+ | * Wenn manuell Features erzeugt werden, die ungewöhnliche Kombinationen beinhalten $x_3=x_1/ | ||
+ | * Weniger | ||
+ | * Geeignet auch wenn m klein (Multivar. muss m > n haben) |