====== Metrik ====== Distanz d(i,j) ist eine Metrik wenn gilt: * Positiv definit: $d(i,j) > 0$ wenn $i \neq j$ und $d(i,i) = 0$ * Symmetrisch: $d(i,j) = d(j,i)$ * Dreiecksungleichung: $d(i,j) \leq d(i,k) + d(k,j)$ ====== Minkowski Distanz ====== $$d(i,j) = \sqrt[p]{|x_{i1}-x_{j1}|^p + \dots + |x_{in}-x_{jn}|^p} = \sqrt[p]{\sum_{k=1}^n |x_{ik}-x_{jk}|^p}$$ * p=1: Manhattan Distanz (City Block, L1 Norm, Hammingdistanz (Anzahl verschiedener Bits in 2 Vektoren)) * p=2: Euklidische Distanz (L2 Norm) * $p \rightarrow \infty$: Supremum Distanz (LMax, LInf Norm) ====== Disimilarity Matrix ====== Dreiecksmatrix $$\begin{pmatrix} 0 & 0 & 0 \\ d(2,1) & 0 & 0 \\ d(3,1) & d(3,2) & 0 \end{pmatrix}$$ ====== Ähnlichkeit ====== ===== Nominale Variablen ===== - Einfaches Matching: $d(i,k) = \frac{m-p}{m}$ mit Anzahl der Variablen m und Anzahl der Matches p. - Binäre Attribute für jeden nominalen Zustand ===== Binäre Attribute ===== Kontingenztabelle ^ Objekt j ^^^^^ ^ Objekt i | | 1 | 0 | Summe | ^ ::: | 1 | q | r | q+r | ^ ::: | 0 | s | t | s+t | ^ ::: | Summe | q+s | r+t | p | * Symmetrische binäre Variablen: $d(i,j) = \frac{r+s}{q+r+s+t}$ * Asymmetrische binäre Variablen: $d(i,j) = \frac{r+s}{q+r+s}$ * Jaccard Koeefizient (Ähnlichkeitsmaß für asymmetrische binäre Variablen) - Kohärenz: $d(i,j) = \frac{q}{q+r+s}$ ===== Ordinale Variablen ===== Behandeln wie intervallskalierte Variablen, d.h. Bereich jeder Variablen auf [0,1] mappen ===== Kosinusähnlichkeit ===== Korrelation zwischen Objekten (nicht Variablen) bei quantitativen und ordinalen Variablen