time_series:anomaly_detection

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
time_series:anomaly_detection [2014/08/13 15:05] – angelegt phreazertime_series:anomaly_detection [2014/12/05 20:14] (current) – [Model Based] phreazer
Line 11: Line 11:
  
 Untersequenz p ist Outlier wenn Häufigkeit in Test Zeitreihe t sich von der erwarteten Häufigkeit unterscheidet. Untersequenz p ist Outlier wenn Häufigkeit in Test Zeitreihe t sich von der erwarteten Häufigkeit unterscheidet.
 +
 +
 +http://www.siam.org/meetings/sdm13/gupta.pdf
 +
 +====== Clustering-Based Anomaly Detection ======
 +Outlier Score: Grad zu dem ein Punkt nicht zu irgendeinem Cluster gehört. Oder Distanz zum Zentroid des Clusters. 
 +
 +Bei K-Means ist es die Differenz des SSE (Standard Squared Errors). Bei großer Differenz nach Entfernung des Punkts aus dem Cluster, liegt ein hoher Outlier Score vor.
 +
 +Einfachste Berechnung des Outlier Scores: Distanz des Punkts zum Zentroid (allerdings nicht besonders sinnvoll, wenn es mehrere unterschiedliche dichte Cluster gibt).
 +Daher: Relative Distanz. D.h. Distanz des Punktes zum Zentroiden / Median Distanz aller Punkte des Clusters zum Zentroid.
 +
 +
 +===== Density Based =====
 +Z.B. DBSCAN
 +
 +===== Proximity-Based =====
 +K-NN Algorithmus.
 +Outlier Score ist die Distanz eines Punktes zu dessen k-nächsten Nachbarn.
 +
 +===== Model Based =====
 +Lernen eines erzeugenden Models aus den Daten mit mathematischer Struktur und eine Menge von Parametern. Für sequentielle Daten wird typischerweise ein Hidden Markov Model verwendet.
 +
 +Literaturverweis: Rabiner
 +
 +HMM Parameter: $\theta = (N,M,A,\pi,B)$
 +  * N: Anzahl von Zuständen
 +  * M: Anzahl der Symbole, die durch jeden Zustand generiert werden.
 +  * A: Übergangsmatrix
 +  * $\pi$: Initialzustandswahrscheinlichkeiten
 +  * B: NxM Matrix mit Wahrscheinlichkeit, ein bestimmtes Symbol in einem der N Zustände beobachten zu können.
 +
 +Wenn die Parameter eines HMM gelernt wurden, können wichtige Statistiken berechnet werden, wie die Wahrscheinlichkeit eine neue Sequenz beobachten zu können oder die wahrscheinlichste Sequenz.
 +
 +Probleme von HMMs:
 +
 +Skalieren nicht gut
 +Training erfordert manuelle Intervention, Datenerfahrung und Parameterwahl.
  • time_series/anomaly_detection.1407935102.txt.gz
  • Last modified: 2014/08/13 15:05
  • by phreazer