Temp Page

Vektoren

  • Länge bzw. Norm $|.|$ gibt Variablität an.
  • Winkel zwischen Richtungen von Vektoren gibt Ähnlichkeit der Variablen zueinander an.

Für zentrierter Vektor x mit $x_i = X_i - \bar{X}$ gilt: $$|x| = \sqrt{x_1^2 + x_2^2 + \dots + x_n^2}$$

Beziehung zur korrigierten Stichprobenstandardabweichung:

$$|x| = \sqrt{n-1} s_x$$

wobei

$$s_x = \sqrt{\frac{1}{n-1} \sum_{i=1}^N(X_i - \bar{X})^2}$$

D.h. Standardabweichung stimmt für zentrierte x mit Vektornorm überein.

  • Wenn der Winkel $\alpha(x,y) = 0$ dann $\cos(\alpha(x,y)) = 1$: x und y sind kollinear, y = ax und a ist ein Skalar
  • Wenn der Winkel $\alpha(x,y) = 90$ dann $\cos(\alpha(x,y)) = 0$: x und y sind orthogonal, x trifft keine Aussage über y

Beziehung zwischen Skalarprodukt und Winkel

Skalarprodukt von x und y: $$x \cdot y = \sum_{i=1}^n x_i y_i = x^\intercal y = y^\intercal x$$ Zusammenhang: $$x \cdot y = |x||y| \cos(\alpha(x,y))$$

$$\iff \cos(\alpha(x,y)) = \frac{x \cdot y}{|x||y|} = \frac{\sum_{i=1}^n x_i y_i}{\sqrt{\sum_{i=1}^n x_i^2 \sum_{i=1}^n y_i^2}} = r_{XY}$$

Wobei $r_{XY}$ der Bravais-Pearson-Korrelationskoeffizient http://de.wikipedia.org/wiki/Korrelationskoeffizient ist.

Vektorbasis

Linearkombination:

$$Y = \sum_{i=1}^n b_i X_i$$

  • Anzahl der Koordinaten definiert die Dimension des Vektorraumes, der Y und alle $X_i$ enthält.
  • Die Menge der Vektoren, die durch $\{X_j\}$ erzeugt werden kann, nennt sich Spann bzw. lineare Hülle (z.B. span($X_1$), span($X_1,X_2$), $\dots$).

Die Zahl der linear unabhängigen Vektoren in ${X_j}$ entspricht der Dimension $d(V)$ des Unterraumes V, der durch {X_j} aufgespannt wird, wobei linear abhängig bedeutet (ohne triviale Lösung):

$$X_k = \sum_{j=1}^{k-1} b_j X_j + \sum_{j=k+1}^p b_j X_j$$

D.h. Vektoren sind linear unabhängig, wenn sich kein Vektor durch eine Linearkombination der anderen Vektoren darstellen lässt (in dem Fall ist das LGS eindeutig lösbar).

Die minimale Menge von Vektoren, die V erzeugt, wird Basis von V genannt.

Alle Basisvektoren liegen im rechten Winkel zueinander (cos(X,Y)=0), d.h. sie sind orthogonal zueinander.

Durch eine Projektion wird ein Vektor in rechtwinklige Komponenten zerlegt.

Beispielsweise wird ein Vektor $X$ durch eine Projektion in einen eindimensionalen Untervektorraum $V'$ abgebildet. $X'$ das in $V'$ liegt, kann dann als als Linearkombination jeglicher Mengen von Basisvektoren von $V'$ ausgedrückt werden.

Beispiel: $$(aV'-X) \perp V'\\ \iff V'^\intercal \cdot (aV'-X) = 0\\ \iff a = \frac{V'^\intercal \cdot X}{V'^\intercal \cdot V'} = \frac{V'^\intercal \cdot X}{|V'|^2}\\ X' = aV' = \frac{V'^\intercal \cdot X}{|V'|^2} V'$$

Es gilt weiterhin $X = X'+X'_\perp$, wobei beide Teile in orthogonalen Unterräumen liegen ($dim(V) = dim(V') + dim(V'_\perp)$).

Bivariate Lineare Regression

Achsenabschnitt $a = \bar{Y}_{scalar} - b\bar{X}_{scalar}$

Regressionskoeffizient b so wählen, dass Länge des Fehlervektors $e = y - bx$ minimiert wird.

e wird minimal wenn

$$e \perp x \\ \iff (y-bx) \cdot x = 0\\ \iff b = \frac{y \cdot x}{|x|^2} = \frac{\sum_i x_i y_i}{\sum_i x_i^2}$$

wobei $x_i$ zentrierte Variablen sind.

$$b = \cos \alpha(x,y) \frac{|y|}{|x|}$$

b ist also der Korrelationskoeffizient skaliert durch die Länge der Vektoren.

Anpassungsgüte (Goodness of Fit)

Winkel zwischen Vektoren (bzw. dessen Cosinus) oder Länge der Vektoren $Y$ und $\hat{Y}$.

Korrelationskoeffizient $R = \cos \alpha(\hat{y},y) = \frac{|\hat{y}|}{|y|}$

Im bivariaten Fall stimmt R mit r überein (da $\hat{y}$ auf $x$ liegt).

$R^2$ drückt den Anteil der erklärten Varianz aus.

$|y|^2 = |\hat{y}|^2 - |e|^2$ oder $SS_{total} = SS_{regression} + SS_{residual}$

Geschätzte Regressionsgerade $\hat{Y} = a \vec{1} + b_1 X_1 + \dots + b_n X_n$

Zentriert: $\hat{y} = b_1 x_1 + \dots + b_n x_n$

Finden der orthogonalen Projektion von $Y$ auf $V_x$ und des minimalen Fehlervektors e bzgl. allen Regressionskoeffizenten.

Es muss entsprechend gelten $e \perp x_1$, $e \perp x_2$.

D.h. bei $\hat{y} = b_1 x_1 + b_2 x_2$ bspw. $$x_1 \cdot e = 0 \\ \iff x_1 \cdot (y-\hat{y}) = 0 \\ \iff x_1 \cdot (y-b_1 x_1 + b_2 x_2) = 0 \\ \iff x_1 \cdot y - b_1 x_1 \cdot x_1+ b_2 x_2 \cdot x_1) = 0 \\ x_2 \cdot y - b_1 x_1 \cdot x_2+ b_2 x_2 \cdot x_2) = 0 $$

Durch das Lösen der Normalengleichung erhält man $b_1, b_2$.

Principal Component Analysis

Motivation: Reduktion der Datendimensionalität

  • Reduktion Berechnungskomplexität (Analyse in DW)
  • Festplatten und Arbeitsspeicherreduktion
  • Reduktion von Rauschen, irrelevanten Features
  • Einfachere Visualisierung
  • Fluch der Dimensionalität vermeiden

Ziel der PCA ist es eine Projektion zu finden, die den größten Teil der Datenvariabilität beschreibt, sodass die ursprünglichen Daten mit so wenigen Daten wie möglich beschrieben werden können.

Die Eigenvektoren der Kovarianzmatrix bilden die Basis des neuen Raums.

Herleitung: Für zentrierte Variablen bedeutet Information Variabilität, d.h. die Summe der Fehlerquadrate für alle Beobachtungen $SS(X_j) = \sum_{i=1}^n x_{ij}^2$.

Zentrieren und standardisieren von $e = \frac{e}{|e|}$ und $x_j = \frac{x_j}{|x_j|}$

$\hat{x}_j$ ist Prädiktorvektor auf e

$\frac{|\hat{x}_j|}{|x_j|} = \cos(e, x_j) = R(e,x_j) = e^\intercal x_j$

(da standardisiert)

Um $R^2(e,x) = SS_{reg}(e,x)$ zu bekommen:

Quadriert: SS_{reg} = $e^\intercal x x^\intercal e$

Nach Standardisierung mit den Anzahl der Variablen m, erhält man die durchschnittliche Summe der Fehlerquadrate pro Variable.

Standardisierung mit m: $\frac{e^\intercal x x^\intercal e}{m}$ wobei $C= \frac{x x^\intercal}{m}$ die Kovarianzmatrix der beobachteten Vektoren ist.

Gesucht ist ein Maximum $\lambda = e^\intercal C e$.

$$\lambda = e^\intercal C e \\ \iff e \lambda = C e \\ \iff (C-\lambda I) e = 0 $$

Eigenwertproblem, f.d. zur Lösung gelten muss $det(C-\lambda I) = 0$, wobei $e$ Eigenvektor von $X X^\intercal$ mit Eigenwert $\lambda$.

Eigenvektoren der Kovarianzmatrix sind orthogonal und greifen disjunkte Teile der Varianz von X' ab. Man erhält eine neue orthogonale Basis. Achsen können absteigend nach der Größe ihrer Eigenwerte sortiert werden, wobei $\lambda_1 = max\{\lambda_i\}$ mit Eigenvektor $e_1$ die erste neue Achse ist.

Z als Repräsentation von X in neuem Raum: $Z=XE$ und $X=ZE^\intercal$ (da für orthogonale Matrizen gilt $A A^\intercal= I$).

Singular Value Decomposition (SVD)

Reduktion der Variablendimensionalität durch kompakte Basis für den Zeilenraum von X' mit den Eigenvektoren von $X X^\intercal$ Reduktion der Objektdimensionalität durch Schätzung des Spaltenraums von X' mit den Eigenvektoren von $X^\intercal X$.

SVD: $X = U \sigma V$ wobei

U Eigenvektoren von $X X^\intercal$, $\sigma$ Quadratwurzel der Eigenwerte und V Eigenvektoren von $X^\intercal X$.