statistik:aehnlichkeitsmasse

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
statistik:metrik [2012/08/20 01:21] phreazerstatistik:aehnlichkeitsmasse [2014/02/11 21:49] (current) – external edit 127.0.0.1
Line 2: Line 2:
 Distanz d(i,j) ist eine Metrik wenn gilt:  Distanz d(i,j) ist eine Metrik wenn gilt: 
  
-Positiv definit: $d(i,j) > 0 wenn i \neq j und d(i,i) = 0$ +  * Positiv definit: $d(i,j) > 0wenn $i \neq jund $d(i,i) = 0$ 
-Symmetrisch: $d(i,j) = d(j,i)$ +  Symmetrisch: $d(i,j) = d(j,i)$ 
-Dreiecksungleichung: $d(i,j) \leq d(i,k) + d(k,j)$+  Dreiecksungleichung: $d(i,j) \leq d(i,k) + d(k,j)$
  
 ====== Minkowski Distanz ====== ====== Minkowski Distanz ======
 $$d(i,j) = \sqrt[p]{|x_{i1}-x_{j1}|^p + \dots + |x_{in}-x_{jn}|^p} = \sqrt[p]{\sum_{k=1}^n  |x_{ik}-x_{jk}|^p}$$ $$d(i,j) = \sqrt[p]{|x_{i1}-x_{j1}|^p + \dots + |x_{in}-x_{jn}|^p} = \sqrt[p]{\sum_{k=1}^n  |x_{ik}-x_{jk}|^p}$$
 +
 +  * p=1: Manhattan Distanz (City Block, L1 Norm, Hammingdistanz (Anzahl verschiedener Bits in 2 Vektoren))
 +  * p=2: Euklidische Distanz (L2 Norm)
 +  * $p \rightarrow \infty$: Supremum Distanz (LMax, LInf Norm)
  
 ====== Disimilarity Matrix ====== ====== Disimilarity Matrix ======
Line 18: Line 22:
 d(3,1) & d(3,2) & 0   d(3,1) & d(3,2) & 0  
 \end{pmatrix}$$ \end{pmatrix}$$
 +
 +====== Ähnlichkeit ======
 +===== Nominale Variablen  =====
 +
 +  - Einfaches Matching: $d(i,k) = \frac{m-p}{m}$ mit Anzahl der Variablen m und Anzahl der Matches p.
 +  - Binäre Attribute für jeden nominalen Zustand
 +
 +===== Binäre Attribute  =====
 +
 +Kontingenztabelle
 +
 +^     Objekt j              ^^^^^
 +^ Objekt i    |  | 1 | 0 | Summe |
 +^ :::    | 1 | q | r | q+r |
 +^ :::    | 0 | s | t | s+t |
 +^ :::    | Summe | q+s | r+t | p |
 +
 +  * Symmetrische binäre Variablen: $d(i,j) = \frac{r+s}{q+r+s+t}$
 +  * Asymmetrische binäre Variablen: $d(i,j) = \frac{r+s}{q+r+s}$
 +  * Jaccard Koeefizient (Ähnlichkeitsmaß für asymmetrische binäre Variablen) - Kohärenz: $d(i,j) = \frac{q}{q+r+s}$
 +
 +===== Ordinale Variablen  =====
 +Behandeln wie intervallskalierte Variablen, d.h. Bereich jeder Variablen auf [0,1] mappen
 +===== Kosinusähnlichkeit  =====
 +Korrelation zwischen Objekten (nicht Variablen) bei quantitativen und ordinalen Variablen
 +
 +
  • statistik/aehnlichkeitsmasse.1345418466.txt.gz
  • Last modified: 2014/02/11 21:48
  • (external edit)