Differences

This shows you the differences between two versions of the page.

--- statistik:geometrische_sicht [2012/08/20 15:24] – [Principal Component Analysis] phreazer
+++ statistik:geometrische_sicht [2014/02/11 21:49] (current) – external edit 127.0.0.1
@@ Line 136: / Line 136: @@
 Die Eigenvektoren der Kovarianzmatrix bilden die Basis des neuen Raums.
-Herleitung: Für zentrierte Variablen bedeutet Information Variabilität, d.h. die Summe der Fehlerquadrate für alle Beobachtungen $SS(X_j) = \sum_{i=1}^n x_ij^2$.
+Herleitung: Für zentrierte Variablen bedeutet Information Variabilität, d.h. die Summe der Fehlerquadrate für alle Beobachtungen $SS(X_j) = \sum_{i=1}^n x_{ij}^2$.
+Zentrieren und standardisieren von $e = \frac{e}{|e|}$ und $x_j = \frac{x_j}{|x_j|}$
+$\hat{x}_j$ ist Prädiktorvektor auf e
+$\frac{|\hat{x}_j|}{|x_j|} = \cos(e, x_j) = R(e,x_j) = e^\intercal x_j$
+(da standardisiert)
+Um $R^2(e,x) = SS_{reg}(e,x)$ zu bekommen:
+Quadriert: SS_{reg} = $e^\intercal x x^\intercal e$
+Nach Standardisierung mit den Anzahl der Variablen m, erhält man die durchschnittliche Summe der Fehlerquadrate pro Variable.
+Standardisierung mit m: $\frac{e^\intercal x x^\intercal e}{m}$ wobei $C= \frac{x x^\intercal}{m}$ die Kovarianzmatrix der beobachteten Vektoren ist.
+Gesucht ist ein Maximum $\lambda = e^\intercal C e$.
+$$\lambda = e^\intercal C e \\
+\iff e \lambda = C e \\
+\iff (C-\lambda I) e = 0
+$$
+Eigenwertproblem, f.d. zur Lösung gelten muss $det(C-\lambda I) = 0$,
+wobei $e$ Eigenvektor von $X X^\intercal$ mit Eigenwert $\lambda$.
+Eigenvektoren der Kovarianzmatrix sind orthogonal und greifen disjunkte Teile der Varianz von X' ab. Man erhält eine neue orthogonale Basis. Achsen können absteigend nach der Größe ihrer Eigenwerte sortiert werden, wobei $\lambda_1 = max\{\lambda_i\}$ mit Eigenvektor $e_1$ die erste neue Achse ist.
+Z als Repräsentation von X in neuem Raum: $Z=XE$ und $X=ZE^\intercal$ (da für orthogonale Matrizen gilt $A A^\intercal= I$).
+====== Singular Value Decomposition (SVD) ======
+Reduktion der Variablendimensionalität durch kompakte Basis für den Zeilenraum von X' mit den Eigenvektoren von $X X^\intercal$
+Reduktion der Objektdimensionalität durch Schätzung des Spaltenraums von X' mit den Eigenvektoren  von $X^\intercal X$.
+SVD: $X = U \sigma V$ wobei
+U Eigenvektoren von  $X X^\intercal$, $\sigma$ Quadratwurzel der Eigenwerte und V Eigenvektoren von $X^\intercal X$.