Outlier in Time Series Databases

This is an old revision of the document!

Sequence TIme-Delay Embedding (Hofmeyr et al. 1998) Man hat Datenbank normaler Sequenzen (z.B. durch SAX) und vergleicht die Anzahl der Missmatches von Sequenzen (nach Windowing). Wenn Grenzwert überschritten, liegt Anomaly vor.

TIme-Delay Embedding Für jedes Element in einer normalen Sequenz werden die Elemente in Distanz 1,2,…,k in der Sequenz gespeichert.

Negative and Mixed Pattern DB Approaches - Anomaly dictionaries

Outlier Subsequences in a Test Time Series

Untersequenz p ist Outlier wenn Häufigkeit in Test Zeitreihe t sich von der erwarteten Häufigkeit unterscheidet.

http://www.siam.org/meetings/sdm13/gupta.pdf

Outlier Score: Grad zu dem ein Punkt nicht zu irgendeinem Cluster gehört. Oder Distanz zum Zentroid des Clusters.

Bei K-Means ist es die Differenz des SSE (Standard Squared Errors). Bei großer Differenz nach Entfernung des Punkts aus dem Cluster, liegt ein hoher Outlier Score vor.

Einfachste Berechnung des Outlier Scores: Distanz des Punkts zum Zentroid (allerdings nicht besonders sinnvoll, wenn es mehrere unterschiedliche dichte Cluster gibt). Daher: Relative Distanz. D.h. Distanz des Punktes zum Zentroiden / Median Distanz aller Punkte des Clusters zum Zentroid.

Z.B. DBSCAN

K-NN Algorithmus. Outlier Score ist die Distanz eines Punktes zu dessen k-nächsten Nachbarn.

Outlier in Time Series Databases

Clustering-Based Anomaly Detection

Density Based

Proximity-Based

AE Wiki