Differences
This shows you the differences between two versions of the page.
Both sides previous revisionPrevious revisionNext revision | Previous revision | ||
statistik:metrik [2012/08/20 01:21] – phreazer | statistik:aehnlichkeitsmasse [2014/02/11 21:49] (current) – external edit 127.0.0.1 | ||
---|---|---|---|
Line 2: | Line 2: | ||
Distanz d(i,j) ist eine Metrik wenn gilt: | Distanz d(i,j) ist eine Metrik wenn gilt: | ||
- | Positiv definit: $d(i,j) > 0 wenn i \neq j und d(i,i) = 0$ | + | * Positiv definit: $d(i,j) > 0$ wenn $i \neq j$ und $d(i,i) = 0$ |
- | Symmetrisch: | + | |
- | Dreiecksungleichung: | + | |
====== Minkowski Distanz ====== | ====== Minkowski Distanz ====== | ||
$$d(i,j) = \sqrt[p]{|x_{i1}-x_{j1}|^p + \dots + |x_{in}-x_{jn}|^p} = \sqrt[p]{\sum_{k=1}^n | $$d(i,j) = \sqrt[p]{|x_{i1}-x_{j1}|^p + \dots + |x_{in}-x_{jn}|^p} = \sqrt[p]{\sum_{k=1}^n | ||
+ | |||
+ | * p=1: Manhattan Distanz (City Block, L1 Norm, Hammingdistanz (Anzahl verschiedener Bits in 2 Vektoren)) | ||
+ | * p=2: Euklidische Distanz (L2 Norm) | ||
+ | * $p \rightarrow \infty$: Supremum Distanz (LMax, LInf Norm) | ||
====== Disimilarity Matrix ====== | ====== Disimilarity Matrix ====== | ||
Line 18: | Line 22: | ||
d(3,1) & d(3,2) & 0 | d(3,1) & d(3,2) & 0 | ||
\end{pmatrix}$$ | \end{pmatrix}$$ | ||
+ | |||
+ | ====== Ähnlichkeit ====== | ||
+ | ===== Nominale Variablen | ||
+ | |||
+ | - Einfaches Matching: $d(i,k) = \frac{m-p}{m}$ mit Anzahl der Variablen m und Anzahl der Matches p. | ||
+ | - Binäre Attribute für jeden nominalen Zustand | ||
+ | |||
+ | ===== Binäre Attribute | ||
+ | |||
+ | Kontingenztabelle | ||
+ | |||
+ | ^ | ||
+ | ^ Objekt i | | 1 | 0 | Summe | | ||
+ | ^ ::: | 1 | q | r | q+r | | ||
+ | ^ ::: | 0 | s | t | s+t | | ||
+ | ^ ::: | Summe | q+s | r+t | p | | ||
+ | |||
+ | * Symmetrische binäre Variablen: $d(i,j) = \frac{r+s}{q+r+s+t}$ | ||
+ | * Asymmetrische binäre Variablen: $d(i,j) = \frac{r+s}{q+r+s}$ | ||
+ | * Jaccard Koeefizient (Ähnlichkeitsmaß für asymmetrische binäre Variablen) - Kohärenz: $d(i,j) = \frac{q}{q+r+s}$ | ||
+ | |||
+ | ===== Ordinale Variablen | ||
+ | Behandeln wie intervallskalierte Variablen, d.h. Bereich jeder Variablen auf [0,1] mappen | ||
+ | ===== Kosinusähnlichkeit | ||
+ | Korrelation zwischen Objekten (nicht Variablen) bei quantitativen und ordinalen Variablen | ||
+ | |||
+ |