Differences

This shows you the differences between two versions of the page.

--- time_series:anomaly_detection [2014/08/13 15:05] – angelegt phreazer
+++ time_series:anomaly_detection [2014/12/05 20:14] (current) – [Model Based] phreazer
@@ Line 11: / Line 11: @@
 Untersequenz p ist Outlier wenn Häufigkeit in Test Zeitreihe t sich von der erwarteten Häufigkeit unterscheidet.
+http://www.siam.org/meetings/sdm13/gupta.pdf
+====== Clustering-Based Anomaly Detection ======
+Outlier Score: Grad zu dem ein Punkt nicht zu irgendeinem Cluster gehört. Oder Distanz zum Zentroid des Clusters.
+Bei K-Means ist es die Differenz des SSE (Standard Squared Errors). Bei großer Differenz nach Entfernung des Punkts aus dem Cluster, liegt ein hoher Outlier Score vor.
+Einfachste Berechnung des Outlier Scores: Distanz des Punkts zum Zentroid (allerdings nicht besonders sinnvoll, wenn es mehrere unterschiedliche dichte Cluster gibt).
+Daher: Relative Distanz. D.h. Distanz des Punktes zum Zentroiden / Median Distanz aller Punkte des Clusters zum Zentroid.
+===== Density Based =====
+Z.B. DBSCAN
+===== Proximity-Based =====
+K-NN Algorithmus.
+Outlier Score ist die Distanz eines Punktes zu dessen k-nächsten Nachbarn.
+===== Model Based =====
+Lernen eines erzeugenden Models aus den Daten mit mathematischer Struktur und eine Menge von Parametern. Für sequentielle Daten wird typischerweise ein Hidden Markov Model verwendet.
+Literaturverweis: Rabiner
+HMM Parameter: $\theta = (N,M,A,\pi,B)$
+  * N: Anzahl von Zuständen
+  * M: Anzahl der Symbole, die durch jeden Zustand generiert werden.
+  * A: Übergangsmatrix
+  * $\pi$: Initialzustandswahrscheinlichkeiten
+  * B: NxM Matrix mit Wahrscheinlichkeit, ein bestimmtes Symbol in einem der N Zustände beobachten zu können.
+Wenn die Parameter eines HMM gelernt wurden, können wichtige Statistiken berechnet werden, wie die Wahrscheinlichkeit eine neue Sequenz beobachten zu können oder die wahrscheinlichste Sequenz.
+Probleme von HMMs:
+Skalieren nicht gut
+Training erfordert manuelle Intervention, Datenerfahrung und Parameterwahl.