data_mining:pca

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
data_mining:pca [2014/08/24 01:52] – [Algorithmus] phreazerdata_mining:pca [2014/08/30 17:07] (current) – [Problemformulierung] phreazer
Line 3: Line 3:
 ===== Problemformulierung ===== ===== Problemformulierung =====
  
-$x \in R^2$+$x \in \mathbb{R}^2$
  
 Finden einer Projektion mit minimalem Projektionsfehler. Finden einer Projektion mit minimalem Projektionsfehler.
Line 9: Line 9:
 Feature Scaleing erforderlich. Feature Scaleing erforderlich.
  
-Für 2 Dimensionen: Finde einen Vektor $u^{(1)} \in R^n$ auf den Daten projiziert werden, dass der Projektionsfehler minimal wird.+Für 2 Dimensionen: Finde einen Vektor $u^{(1)} \in \mathbb{R}^n$ auf den Daten projiziert werden, dass der Projektionsfehler minimal wird.
  
 Für k Dimensionen: Finde k Vektoren $u^{(1)}, \dots, u^{(k)}$ auf die Daten projiziert werden, dass der Projektionsfehler minimal wird. Für k Dimensionen: Finde k Vektoren $u^{(1)}, \dots, u^{(k)}$ auf die Daten projiziert werden, dass der Projektionsfehler minimal wird.
Line 16: Line 16:
  
 Berechnung der Kovarianzmatrix: Berechnung der Kovarianzmatrix:
-$\Sigma = \frac{1}{m} \sum^n_{i=1} x^{(i)} x^{(i)}^T$+$\Sigma = \frac{1}{m} \sum_{i=1}^n x^{(i)} (x^{(i)})^T = 1/m X^T X$
  
 Berechnung der Eigenvektoren der Matrix $\sigma$: Berechnung der Eigenvektoren der Matrix $\sigma$:
Line 22: Line 22:
 svd-Funktion: [U, S, V] = svd(Sigma); svd-Funktion: [U, S, V] = svd(Sigma);
  
-$U_{\text{reduce}}$ : k-Spalten der U-Matrix ($n \cross n$)+$U_{\text{reduce}}$ : k-Spalten der U-Matrix ($n \times n$)
  
 $z = U_{\text{reduce}}^T x$ $z = U_{\text{reduce}}^T x$
 +
 +===== Parameterwahl (k) =====
 +
 +99% der Varianz bleibt erhalten.
 +
 +$$
 +\frac{\frac{1}{m} \sum_{i=1}^m || x^{(i)} - x_{\text{approx}}^{(i)} ||^2}{\frac{1}{m} \sum_{i=1}^m || x^{(i)}||^2} \leq 0.01
 +$$
 +
 +[U,S,V] mit S als diagonale Matrix.
 +
 +Für ein k, kann $1-\frac{\sum_{i=1}^k S_{ii}}{\sum_{i=1}^n S_{ii}} \leq 0.01$.
 +
 +===== Decompression =====
 +$x_\text{approx} = U_\text{reduce} z$
  • data_mining/pca.1408837946.txt.gz
  • Last modified: 2014/08/24 01:52
  • by phreazer