Metrik
Distanz d(i,j) ist eine Metrik wenn gilt:
Positiv definit: $d(i,j) > 0$ wenn $i \neq j$ und $d(i,i) = 0$
Symmetrisch: $d(i,j) = d(j,i)$
Dreiecksungleichung: $d(i,j) \leq d(i,k) + d(k,j)$
Minkowski Distanz
$$d(i,j) = \sqrt[p]{|x_{i1}-x_{j1}|^p + \dots + |x_{in}-x_{jn}|^p} = \sqrt[p]{\sum_{k=1}^n |x_{ik}-x_{jk}|^p}$$
p=1: Manhattan Distanz (City Block, L1 Norm, Hammingdistanz (Anzahl verschiedener Bits in 2 Vektoren))
p=2: Euklidische Distanz (L2 Norm)
$p \rightarrow \infty$: Supremum Distanz (LMax, LInf Norm)
Disimilarity Matrix
Dreiecksmatrix
$$\begin{pmatrix}
0 & 0 & 0 \\
d(2,1) & 0 & 0 \\
d(3,1) & d(3,2) & 0
\end{pmatrix}$$
Ähnlichkeit
Nominale Variablen
Einfaches Matching: $d(i,k) = \frac{m-p}{m}$ mit Anzahl der Variablen m und Anzahl der Matches p.
Binäre Attribute für jeden nominalen Zustand
Binäre Attribute
Kontingenztabelle
Objekt j |
Objekt i | | 1 | 0 | Summe |
1 | q | r | q+r |
0 | s | t | s+t |
Summe | q+s | r+t | p |
Symmetrische binäre Variablen: $d(i,j) = \frac{r+s}{q+r+s+t}$
Asymmetrische binäre Variablen: $d(i,j) = \frac{r+s}{q+r+s}$
Jaccard Koeefizient (Ähnlichkeitsmaß für asymmetrische binäre Variablen) - Kohärenz: $d(i,j) = \frac{q}{q+r+s}$
Ordinale Variablen
Behandeln wie intervallskalierte Variablen, d.h. Bereich jeder Variablen auf [0,1] mappen
Kosinusähnlichkeit
Korrelation zwischen Objekten (nicht Variablen) bei quantitativen und ordinalen Variablen