Temp Page
Für zentrierter Vektor x mit $x_i = X_i - \bar{X}$ gilt: $$|x| = \sqrt{x_1^2 + x_2^2 + \dots + x_n^2}$$
Beziehung zur korrigierten Stichprobenstandardabweichung:
$$|x| = \sqrt{n-1} s_x$$
wobei
$$s_x = \sqrt{\frac{1}{n-1} \sum_{i=1}^N(X_i - \bar{X})^2}$$
D.h. Standardabweichung stimmt für zentrierte x mit Vektornorm überein.
Skalarprodukt von x und y: $$x \cdot y = \sum_{i=1}^n x_i y_i = x^\intercal y = y^\intercal x$$ Zusammenhang: $$x \cdot y = |x||y| \cos(\alpha(x,y))$$
$$\iff \cos(\alpha(x,y)) = \frac{x \cdot y}{|x||y|} = \frac{\sum_{i=1}^n x_i y_i}{\sqrt{\sum_{i=1}^n x_i^2 \sum_{i=1}^n y_i^2}} = r_{XY}$$
Wobei $r_{XY}$ der Bravais-Pearson-Korrelationskoeffizient http://de.wikipedia.org/wiki/Korrelationskoeffizient ist.
Linearkombination:
$$Y = \sum_{i=1}^n b_i X_i$$
Die Zahl der linear unabhängigen Vektoren in ${X_j}$ entspricht der Dimension $d(V)$ des Unterraumes V, der durch {X_j} aufgespannt wird, wobei linear abhängig bedeutet (ohne triviale Lösung):
$$X_k = \sum_{j=1}^{k-1} b_j X_j + \sum_{j=k+1}^p b_j X_j$$
D.h. Vektoren sind linear unabhängig, wenn sich kein Vektor durch eine Linearkombination der anderen Vektoren darstellen lässt (in dem Fall ist das LGS eindeutig lösbar).
Die minimale Menge von Vektoren, die V erzeugt, wird Basis von V genannt.
Alle Basisvektoren liegen im rechten Winkel zueinander (cos(X,Y)=0), d.h. sie sind orthogonal zueinander.
Durch eine Projektion wird ein Vektor in rechtwinklige Komponenten zerlegt.
Beispielsweise wird ein Vektor $X$ durch eine Projektion in einen eindimensionalen Untervektorraum $V'$ abgebildet. $X'$ das in $V'$ liegt, kann dann als als Linearkombination jeglicher Mengen von Basisvektoren von $V'$ ausgedrückt werden.
Beispiel: $$(aV'-X) \perp V'\\ \iff V'^\intercal \cdot (aV'-X) = 0\\ \iff a = \frac{V'^\intercal \cdot X}{V'^\intercal \cdot V'} = \frac{V'^\intercal \cdot X}{|V'|^2}\\ X' = aV' = \frac{V'^\intercal \cdot X}{|V'|^2} V'$$
Es gilt weiterhin $X = X'+X'_\perp$, wobei beide Teile in orthogonalen Unterräumen liegen ($dim(V) = dim(V') + dim(V'_\perp)$).
Achsenabschnitt $a = \bar{Y}_{scalar} - b\bar{X}_{scalar}$
Regressionskoeffizient b so wählen, dass Länge des Fehlervektors $e = y - bx$ minimiert wird.
e wird minimal wenn
$$e \perp x \\ \iff (y-bx) \cdot x = 0\\ \iff b = \frac{y \cdot x}{|x|^2} = \frac{\sum_i x_i y_i}{\sum_i x_i^2}$$
wobei $x_i$ zentrierte Variablen sind.
$$b = \cos \alpha(x,y) \frac{|y|}{|x|}$$
b ist also der Korrelationskoeffizient skaliert durch die Länge der Vektoren.
Winkel zwischen Vektoren (bzw. dessen Cosinus) oder Länge der Vektoren $Y$ und $\hat{Y}$.
Korrelationskoeffizient $R = \cos \alpha(\hat{y},y) = \frac{|\hat{y}|}{|y|}$
Im bivariaten Fall stimmt R mit r überein (da $\hat{y}$ auf $x$ liegt).
$R^2$ drückt den Anteil der erklärten Varianz aus.
$|y|^2 = |\hat{y}|^2 - |e|^2$ oder $SS_{total} = SS_{regression} + SS_{residual}$
Geschätzte Regressionsgerade $\hat{Y} = a \vec{1} + b_1 X_1 + \dots + b_n X_n$
Zentriert: $\hat{y} = b_1 x_1 + \dots + b_n x_n$
Finden der orthogonalen Projektion von $Y$ auf $V_x$ und des minimalen Fehlervektors e bzgl. allen Regressionskoeffizenten.
Es muss entsprechend gelten $e \perp x_1$, $e \perp x_2$.
D.h. bei $\hat{y} = b_1 x_1 + b_2 x_2$ bspw. $$x_1 \cdot e = 0 \\ \iff x_1 \cdot (y-\hat{y}) = 0 \\ \iff x_1 \cdot (y-b_1 x_1 + b_2 x_2) = 0 \\ \iff x_1 \cdot y - b_1 x_1 \cdot x_1+ b_2 x_2 \cdot x_1) = 0 \\ x_2 \cdot y - b_1 x_1 \cdot x_2+ b_2 x_2 \cdot x_2) = 0 $$
Durch das Lösen der Normalengleichung erhält man $b_1, b_2$.
Motivation: Reduktion der Datendimensionalität
Ziel der PCA ist es eine Projektion zu finden, die den größten Teil der Datenvariabilität beschreibt, sodass die ursprünglichen Daten mit so wenigen Daten wie möglich beschrieben werden können.
Die Eigenvektoren der Kovarianzmatrix bilden die Basis des neuen Raums.
Herleitung: Für zentrierte Variablen bedeutet Information Variabilität, d.h. die Summe der Fehlerquadrate für alle Beobachtungen $SS(X_j) = \sum_{i=1}^n x_{ij}^2$.
Zentrieren und standardisieren von $e = \frac{e}{|e|}$ und $x_j = \frac{x_j}{|x_j|}$
$\hat{x}_j$ ist Prädiktorvektor auf e
$\frac{|\hat{x}_j|}{|x_j|} = \cos(e, x_j) = R(e,x_j) = e^\intercal x_j$
(da standardisiert)
Um $R^2(e,x) = SS_{reg}(e,x)$ zu bekommen:
Quadriert: SS_{reg} = $e^\intercal x x^\intercal e$
Nach Standardisierung mit den Anzahl der Variablen m, erhält man die durchschnittliche Summe der Fehlerquadrate pro Variable.
Standardisierung mit m: $\frac{e^\intercal x x^\intercal e}{m}$ wobei $C= \frac{x x^\intercal}{m}$ die Kovarianzmatrix der beobachteten Vektoren ist.
Gesucht ist ein Maximum $\lambda = e^\intercal C e$.
$$\lambda = e^\intercal C e \\ \iff e \lambda = C e \\ \iff (C-\lambda I) e = 0 $$
Eigenwertproblem, f.d. zur Lösung gelten muss $det(C-\lambda I) = 0$, wobei $e$ Eigenvektor von $X X^\intercal$ mit Eigenwert $\lambda$.
Eigenvektoren der Kovarianzmatrix sind orthogonal und greifen disjunkte Teile der Varianz von X' ab. Man erhält eine neue orthogonale Basis. Achsen können absteigend nach der Größe ihrer Eigenwerte sortiert werden, wobei $\lambda_1 = max\{\lambda_i\}$ mit Eigenvektor $e_1$ die erste neue Achse ist.
Z als Repräsentation von X in neuem Raum: $Z=XE$ und $X=ZE^\intercal$ (da für orthogonale Matrizen gilt $A A^\intercal= I$).
Reduktion der Variablendimensionalität durch kompakte Basis für den Zeilenraum von X' mit den Eigenvektoren von $X X^\intercal$ Reduktion der Objektdimensionalität durch Schätzung des Spaltenraums von X' mit den Eigenvektoren von $X^\intercal X$.
SVD: $X = U \sigma V$ wobei
U Eigenvektoren von $X X^\intercal$, $\sigma$ Quadratwurzel der Eigenwerte und V Eigenvektoren von $X^\intercal X$.