Differences
This shows you the differences between two versions of the page.
Next revision | Previous revision | ||
time_series:anomaly_detection [2014/08/13 13:05] – angelegt phreazer | time_series:anomaly_detection [2014/12/05 19:14] (current) – [Model Based] phreazer | ||
---|---|---|---|
Line 11: | Line 11: | ||
Untersequenz p ist Outlier wenn Häufigkeit in Test Zeitreihe t sich von der erwarteten Häufigkeit unterscheidet. | Untersequenz p ist Outlier wenn Häufigkeit in Test Zeitreihe t sich von der erwarteten Häufigkeit unterscheidet. | ||
+ | |||
+ | |||
+ | http:// | ||
+ | |||
+ | ====== Clustering-Based Anomaly Detection ====== | ||
+ | Outlier Score: Grad zu dem ein Punkt nicht zu irgendeinem Cluster gehört. Oder Distanz zum Zentroid des Clusters. | ||
+ | |||
+ | Bei K-Means ist es die Differenz des SSE (Standard Squared Errors). Bei großer Differenz nach Entfernung des Punkts aus dem Cluster, liegt ein hoher Outlier Score vor. | ||
+ | |||
+ | Einfachste Berechnung des Outlier Scores: Distanz des Punkts zum Zentroid (allerdings nicht besonders sinnvoll, wenn es mehrere unterschiedliche dichte Cluster gibt). | ||
+ | Daher: Relative Distanz. D.h. Distanz des Punktes zum Zentroiden / Median Distanz aller Punkte des Clusters zum Zentroid. | ||
+ | |||
+ | |||
+ | ===== Density Based ===== | ||
+ | Z.B. DBSCAN | ||
+ | |||
+ | ===== Proximity-Based ===== | ||
+ | K-NN Algorithmus. | ||
+ | Outlier Score ist die Distanz eines Punktes zu dessen k-nächsten Nachbarn. | ||
+ | |||
+ | ===== Model Based ===== | ||
+ | Lernen eines erzeugenden Models aus den Daten mit mathematischer Struktur und eine Menge von Parametern. Für sequentielle Daten wird typischerweise ein Hidden Markov Model verwendet. | ||
+ | |||
+ | Literaturverweis: | ||
+ | |||
+ | HMM Parameter: $\theta = (N, | ||
+ | * N: Anzahl von Zuständen | ||
+ | * M: Anzahl der Symbole, die durch jeden Zustand generiert werden. | ||
+ | * A: Übergangsmatrix | ||
+ | * $\pi$: Initialzustandswahrscheinlichkeiten | ||
+ | * B: NxM Matrix mit Wahrscheinlichkeit, | ||
+ | |||
+ | Wenn die Parameter eines HMM gelernt wurden, können wichtige Statistiken berechnet werden, wie die Wahrscheinlichkeit eine neue Sequenz beobachten zu können oder die wahrscheinlichste Sequenz. | ||
+ | |||
+ | Probleme von HMMs: | ||
+ | |||
+ | Skalieren nicht gut | ||
+ | Training erfordert manuelle Intervention, |