Metrik
Distanz d(i,j) ist eine Metrik wenn gilt:
- Positiv definit: $d(i,j) > 0$ wenn $i \neq j$ und $d(i,i) = 0$
- Symmetrisch: $d(i,j) = d(j,i)$
- Dreiecksungleichung: $d(i,j) \leq d(i,k) + d(k,j)$
Minkowski Distanz
$$d(i,j) = \sqrt[p]{|x_{i1}-x_{j1}|^p + \dots + |x_{in}-x_{jn}|^p} = \sqrt[p]{\sum_{k=1}^n |x_{ik}-x_{jk}|^p}$$
- p=1: Manhattan Distanz (City Block, L1 Norm, Hammingdistanz (Anzahl verschiedener Bits in 2 Vektoren))
- p=2: Euklidische Distanz (L2 Norm)
- $p \rightarrow \infty$: Supremum Distanz (LMax, LInf Norm)
Disimilarity Matrix
Dreiecksmatrix
$$\begin{pmatrix} 0 & 0 & 0 \\ d(2,1) & 0 & 0 \\ d(3,1) & d(3,2) & 0 \end{pmatrix}$$
Ähnlichkeit
Nominale Variablen
- Einfaches Matching: $d(i,k) = \frac{m-p}{m}$ mit Anzahl der Variablen m und Anzahl der Matches p.
- Binäre Attribute für jeden nominalen Zustand
Binäre Attribute
Kontingenztabelle
Objekt j | ||||
---|---|---|---|---|
Objekt i | 1 | 0 | Summe | |
1 | q | r | q+r | |
0 | s | t | s+t | |
Summe | q+s | r+t | p |
- Symmetrische binäre Variablen: $d(i,j) = \frac{r+s}{q+r+s+t}$
- Asymmetrische binäre Variablen: $d(i,j) = \frac{r+s}{q+r+s}$
- Jaccard Koeefizient (Ähnlichkeitsmaß für asymmetrische binäre Variablen) - Kohärenz: $d(i,j) = \frac{q}{q+r+s}$
Ordinale Variablen
Behandeln wie intervallskalierte Variablen, d.h. Bereich jeder Variablen auf [0,1] mappen
Kosinusähnlichkeit
Korrelation zwischen Objekten (nicht Variablen) bei quantitativen und ordinalen Variablen