Metrik

Distanz d(i,j) ist eine Metrik wenn gilt:

  • Positiv definit: $d(i,j) > 0$ wenn $i \neq j$ und $d(i,i) = 0$
  • Symmetrisch: $d(i,j) = d(j,i)$
  • Dreiecksungleichung: $d(i,j) \leq d(i,k) + d(k,j)$

Minkowski Distanz

$$d(i,j) = \sqrt[p]{|x_{i1}-x_{j1}|^p + \dots + |x_{in}-x_{jn}|^p} = \sqrt[p]{\sum_{k=1}^n |x_{ik}-x_{jk}|^p}$$

  • p=1: Manhattan Distanz (City Block, L1 Norm, Hammingdistanz (Anzahl verschiedener Bits in 2 Vektoren))
  • p=2: Euklidische Distanz (L2 Norm)
  • $p \rightarrow \infty$: Supremum Distanz (LMax, LInf Norm)

Disimilarity Matrix

Dreiecksmatrix

$$\begin{pmatrix} 0 & 0 & 0 \\ d(2,1) & 0 & 0 \\ d(3,1) & d(3,2) & 0 \end{pmatrix}$$

Ähnlichkeit

  1. Einfaches Matching: $d(i,k) = \frac{m-p}{m}$ mit Anzahl der Variablen m und Anzahl der Matches p.
  2. Binäre Attribute für jeden nominalen Zustand

Kontingenztabelle

Objekt j
Objekt i 1 0 Summe
1 q r q+r
0 s t s+t
Summe q+s r+t p
  • Symmetrische binäre Variablen: $d(i,j) = \frac{r+s}{q+r+s+t}$
  • Asymmetrische binäre Variablen: $d(i,j) = \frac{r+s}{q+r+s}$
  • Jaccard Koeefizient (Ähnlichkeitsmaß für asymmetrische binäre Variablen) - Kohärenz: $d(i,j) = \frac{q}{q+r+s}$

Behandeln wie intervallskalierte Variablen, d.h. Bereich jeder Variablen auf [0,1] mappen

Korrelation zwischen Objekten (nicht Variablen) bei quantitativen und ordinalen Variablen