time_series:anomaly_detection

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
Last revisionBoth sides next revision
time_series:anomaly_detection [2014/08/13 15:05] phreazertime_series:anomaly_detection [2014/12/05 20:08] phreazer
Line 14: Line 14:
  
 http://www.siam.org/meetings/sdm13/gupta.pdf http://www.siam.org/meetings/sdm13/gupta.pdf
 +
 +====== Clustering-Based Anomaly Detection ======
 +Outlier Score: Grad zu dem ein Punkt nicht zu irgendeinem Cluster gehört. Oder Distanz zum Zentroid des Clusters. 
 +
 +Bei K-Means ist es die Differenz des SSE (Standard Squared Errors). Bei großer Differenz nach Entfernung des Punkts aus dem Cluster, liegt ein hoher Outlier Score vor.
 +
 +Einfachste Berechnung des Outlier Scores: Distanz des Punkts zum Zentroid (allerdings nicht besonders sinnvoll, wenn es mehrere unterschiedliche dichte Cluster gibt).
 +Daher: Relative Distanz. D.h. Distanz des Punktes zum Zentroiden / Median Distanz aller Punkte des Clusters zum Zentroid.
 +
 +
 +===== Density Based =====
 +Z.B. DBSCAN
 +
 +===== Proximity-Based =====
 +K-NN Algorithmus.
 +Outlier Score ist die Distanz eines Punktes zu dessen k-nächsten Nachbarn.
 +
 +===== Model Based =====
 +Lernen eines erzeugenden Models aus den Daten mit mathematischer Struktur und eine Menge von Parametern. Für sequentielle Daten wird typischerweise ein Hidden Markov Model verwendet.
 +
 +Literaturverweis: Rabiner
 +
 +HMM Parameter: $\theta = (N,M,A,\pi,B)$
 +  * N: Anzahl von Zuständen
 +  * M: Anzahl der Symbole, die durch jeden Zustand generiert werden.
 +  * A: Übergangsmatrix
 +  * $\pi$: Initialzustandswahrscheinlichkeiten
 +  * B: NxM Matrix mit Wahrscheinlichkeit, ein bestimmtes Symbol in einem der N Zustände beobachten zu können.
  • time_series/anomaly_detection.txt
  • Last modified: 2014/12/05 20:14
  • by phreazer