Indexieren von Zeitreihen

Finden eines effizienten Algorithmus, um ähnliche Zeitreihen aus einer Zeitreihendatenbank zu finden.

Für das einfache indexieren sollte es sich beim Distanzmaß um eine Metrik handeln. Es gibt aber interessante Distanzmaße, die keine Metrik sind (wie DTW), da sie z.B. nicht die Dreiecksungleichung erfüllen.

Indizieren schränkt den Suchraum auf eine bestimmte Nachbarschaft der Anfrage/Query ein. Dazu werden Lower Bounds benutzt. Ein Beispiel dafür ist iSax_MinDist, die Folgen prunt, basierend auf Bereichsintervalle, die für quantisierte Zeitreihen bestimmt wurden.

Zusätzliche Beschleunigung kann durch approximierte Lower Bounds erreicht werden, bei denen es aber ein Anteil falscher Ergebnisse gibt.

Weber et al. haben gezeigt, dass die Performanz eines Indexierungsschemas dem eines sequentiellen Scans entspricht, wenn es mehrere Dimensionen gibt.

Lemire: Wenn die Distanz keine Metrik ist, oder die Anzahl der Dimensionen zu groß wird, so wird eine Begrenzungstechnik verwendet wie bspw. beim Generic Multimedia Object Indexing (GEMINI). False Positives werden schnell ausgeschlossen, indem eine untere Schranke berechnet wird.

LB_Keogh: Wenn die erste untere Schranke ausreicht einen Kandidaten zu eliminieren, wird die Berechnung abgebrochen. Ansonsten wird die Zeitreihe ein weiteres mal bearbeitet, um die untere Schranke zu erhöhen. Wenn die zweite untere Schranke groß genug ist, wird der Kandidat geprunt, ansonsten wird die DTW-Distanz berechnet.

Komplexität für die Berechnung von DTW zwischen 2 Zeitreihen liegt bei Verwendung eines Warping Windows w bei O(nw).

Beschleunigung: - LB_Keogh: Lower Bound Funktion mit Komplexität von O(n) - LB_PAA: PAA + ähnliche Weise wie LB_Keogh nur für kleineres n - iSAX:

Durch PAA erhält man n-dimensionalen Raum, der mit einem R-Baum indexiert werden kann. Index enthält MBR, in denen ähnliche Sequenzen gruppiert werden. Bei einer Anfrage werden die Sequenzen gefunden, die nahe an Q liegen, basierend auf der Distanz zum MBR. (Keogh and Ratanamahatana 2005).

Bei iSax werden zusätzlich zu PAA Zeitreihen quantisiert und in Folgen von Symbolen umgewandelt. Größe des Alphabets wird automatisch angepasst bei der Indexkonstruktion. iSAX_MinDist metrik (Shieh and Keogh (2008)).

IDDTW Nur DTW für die Zeitreihen berechnen, die wahrscheinlich ähnlich sind. Wahrscheinlichkeit bestimmt sich anhand DTW von downgesampleten Zeitreihen. So lange Kandidaten untersuchen, bis diese ausgeschlossen werden können oder nicht. (Chu et al., 2002).

Paper source (Improving the Efficiency of Traditional DTW Accelerators): http://people.irisa.fr/Romain.Tavenard/pdf/kais_13_tavenard.pdf

(Longest Common Subsequence: Eigenschaft: Outlier werden nicht gematcht)

Similarity Retrieval:

- Range Query: Alle Zeitreihen finden, die in Epsilon Umgebung liegen - NN Query: K Ähnlichste Zeitreihen finden

LB Distanz: PAA benutzen und Lower Bound berechnen