statistik:geometrische_sicht

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
statistik:geometrische_sicht [2012/08/20 00:28] – [Multiple Regression] phreazerstatistik:geometrische_sicht [2014/02/11 21:49] (current) – external edit 127.0.0.1
Line 98: Line 98:
 Im bivariaten Fall stimmt R mit r überein (da $\hat{y}$ auf $x$ liegt). Im bivariaten Fall stimmt R mit r überein (da $\hat{y}$ auf $x$ liegt).
  
-R^2 drückt den Anteil der erklärten Varianz aus.+$R^2drückt den Anteil der erklärten Varianz aus.
  
 $|y|^2 = |\hat{y}|^2 - |e|^2$ oder $|y|^2 = |\hat{y}|^2 - |e|^2$ oder
 $SS_{total} = SS_{regression} + SS_{residual}$ $SS_{total} = SS_{regression} + SS_{residual}$
  
-===== Multiple Regression =====+===== Multiple lineare Regression =====
  
 Geschätzte Regressionsgerade $\hat{Y} = a \vec{1} + b_1 X_1 + \dots + b_n X_n$ Geschätzte Regressionsgerade $\hat{Y} = a \vec{1} + b_1 X_1 + \dots + b_n X_n$
Line 123: Line 123:
 Durch das Lösen der Normalengleichung erhält man $b_1, b_2$. Durch das Lösen der Normalengleichung erhält man $b_1, b_2$.
  
 +====== Principal Component Analysis ======
 +
 +Motivation: Reduktion der Datendimensionalität
 +  * Reduktion Berechnungskomplexität (Analyse in DW)
 +  * Festplatten und Arbeitsspeicherreduktion
 +  * Reduktion von Rauschen, irrelevanten Features
 +  * Einfachere Visualisierung
 +  * Fluch der Dimensionalität vermeiden
 +
 +Ziel der PCA ist es eine Projektion zu finden, die den größten Teil der Datenvariabilität beschreibt, sodass die ursprünglichen Daten mit so wenigen Daten wie möglich beschrieben werden können.
 +
 +Die Eigenvektoren der Kovarianzmatrix bilden die Basis des neuen Raums.
 +
 +Herleitung: Für zentrierte Variablen bedeutet Information Variabilität, d.h. die Summe der Fehlerquadrate für alle Beobachtungen $SS(X_j) = \sum_{i=1}^n x_{ij}^2$.
 +
 +Zentrieren und standardisieren von $e = \frac{e}{|e|}$ und $x_j = \frac{x_j}{|x_j|}$
 +
 +$\hat{x}_j$ ist Prädiktorvektor auf e
 +
 +$\frac{|\hat{x}_j|}{|x_j|} = \cos(e, x_j) = R(e,x_j) = e^\intercal x_j$
 +
 +(da standardisiert)
 +
 +Um $R^2(e,x) = SS_{reg}(e,x)$ zu bekommen:
 +
 +Quadriert: SS_{reg} = $e^\intercal x x^\intercal e$
 +
 +Nach Standardisierung mit den Anzahl der Variablen m, erhält man die durchschnittliche Summe der Fehlerquadrate pro Variable.
 +
 +Standardisierung mit m: $\frac{e^\intercal x x^\intercal e}{m}$ wobei $C= \frac{x x^\intercal}{m}$ die Kovarianzmatrix der beobachteten Vektoren ist.
 +
 +Gesucht ist ein Maximum $\lambda = e^\intercal C e$.
 +
 +$$\lambda = e^\intercal C e \\
 +\iff e \lambda = C e \\
 +\iff (C-\lambda I) e = 0
 +$$
 +
 +Eigenwertproblem, f.d. zur Lösung gelten muss $det(C-\lambda I) = 0$,
 +wobei $e$ Eigenvektor von $X X^\intercal$ mit Eigenwert $\lambda$.
 +
 +Eigenvektoren der Kovarianzmatrix sind orthogonal und greifen disjunkte Teile der Varianz von X' ab. Man erhält eine neue orthogonale Basis. Achsen können absteigend nach der Größe ihrer Eigenwerte sortiert werden, wobei $\lambda_1 = max\{\lambda_i\}$ mit Eigenvektor $e_1$ die erste neue Achse ist.
 +
 +Z als Repräsentation von X in neuem Raum: $Z=XE$ und $X=ZE^\intercal$ (da für orthogonale Matrizen gilt $A A^\intercal= I$).
 +
 +====== Singular Value Decomposition (SVD) ======
 +Reduktion der Variablendimensionalität durch kompakte Basis für den Zeilenraum von X' mit den Eigenvektoren von $X X^\intercal$
 +Reduktion der Objektdimensionalität durch Schätzung des Spaltenraums von X' mit den Eigenvektoren  von $X^\intercal X$.
 +
 +SVD: $X = U \sigma V$ wobei
 +
 +U Eigenvektoren von  $X X^\intercal$, $\sigma$ Quadratwurzel der Eigenwerte und V Eigenvektoren von $X^\intercal X$.
  • statistik/geometrische_sicht.1345415319.txt.gz
  • Last modified: 2014/02/11 21:48
  • (external edit)