time_series:anomaly_detection

This is an old revision of the document!


Outlier in Time Series Databases

Sequence TIme-Delay Embedding (Hofmeyr et al. 1998) Man hat Datenbank normaler Sequenzen (z.B. durch SAX) und vergleicht die Anzahl der Missmatches von Sequenzen (nach Windowing). Wenn Grenzwert überschritten, liegt Anomaly vor.

TIme-Delay Embedding Für jedes Element in einer normalen Sequenz werden die Elemente in Distanz 1,2,…,k in der Sequenz gespeichert.

Negative and Mixed Pattern DB Approaches - Anomaly dictionaries

Outlier Subsequences in a Test Time Series

Untersequenz p ist Outlier wenn Häufigkeit in Test Zeitreihe t sich von der erwarteten Häufigkeit unterscheidet.

http://www.siam.org/meetings/sdm13/gupta.pdf

Clustering-Based Anomaly Detection

Outlier Score: Grad zu dem ein Punkt nicht zu irgendeinem Cluster gehört. Oder Distanz zum Zentroid des Clusters.

Bei K-Means ist es die Differenz des SSE (Standard Squared Errors). Bei großer Differenz nach Entfernung des Punkts aus dem Cluster, liegt ein hoher Outlier Score vor.

Einfachste Berechnung des Outlier Scores: Distanz des Punkts zum Zentroid (allerdings nicht besonders sinnvoll, wenn es mehrere unterschiedliche dichte Cluster gibt). Daher: Relative Distanz. D.h. Distanz des Punktes zum Zentroiden / Median Distanz aller Punkte des Clusters zum Zentroid.

Z.B. DBSCAN

K-NN Algorithmus. Outlier Score ist die Distanz eines Punktes zu dessen k-nächsten Nachbarn.

  • time_series/anomaly_detection.1417804908.txt.gz
  • Last modified: 2014/12/05 19:41
  • by phreazer