Table of Contents

Metrik

Distanz d(i,j) ist eine Metrik wenn gilt:

Minkowski Distanz

$$d(i,j) = \sqrt[p]{|x_{i1}-x_{j1}|^p + \dots + |x_{in}-x_{jn}|^p} = \sqrt[p]{\sum_{k=1}^n |x_{ik}-x_{jk}|^p}$$

Disimilarity Matrix

Dreiecksmatrix

$$\begin{pmatrix} 0 & 0 & 0 \\ d(2,1) & 0 & 0 \\ d(3,1) & d(3,2) & 0 \end{pmatrix}$$

Ähnlichkeit

Nominale Variablen

  1. Einfaches Matching: $d(i,k) = \frac{m-p}{m}$ mit Anzahl der Variablen m und Anzahl der Matches p.
  2. Binäre Attribute für jeden nominalen Zustand

Binäre Attribute

Kontingenztabelle

Objekt j
Objekt i 1 0 Summe
1 q r q+r
0 s t s+t
Summe q+s r+t p

Ordinale Variablen

Behandeln wie intervallskalierte Variablen, d.h. Bereich jeder Variablen auf [0,1] mappen

Kosinusähnlichkeit

Korrelation zwischen Objekten (nicht Variablen) bei quantitativen und ordinalen Variablen