statistik:geometrische_sicht

This is an old revision of the document!


Temp Page

Vektoren

  • Länge bzw. Norm $|.|$ gibt Variablität an.
  • Winkel zwischen Richtungen von Vektoren gibt Ähnlichkeit der Variablen zueinander an.

Für zentrierter Vektor x mit $x_i = X_i - \bar{X}$ gilt: $$|x| = \sqrt{x_1^2 + x_2^2 + \dots + x_n^2}$$

Beziehung zur korrigierten Stichprobenstandardabweichung:

$$|x| = \sqrt{n-1} s_x$$

wobei

$$s_x = \sqrt{\frac{1}{n-1} \sum_{i=1}^N(X_i - \bar{X})^2}$$

D.h. Standardabweichung stimmt für zentrierte x mit Vektornorm überein.

  • Wenn der Winkel $\alpha(x,y) = 0$ dann $\cos(\alpha(x,y)) = 1$: x und y sind kollinear, y = ax und a ist ein Skalar
  • Wenn der Winkel $\alpha(x,y) = 90$ dann $\cos(\alpha(x,y)) = 0$: x und y sind orthogonal, x trifft keine Aussage über y

Skalarprodukt von x und y: $$x \cdot y = \sum_{i=1}^n x_i y_i = x^\intercal y = y^\intercal x$$ Zusammenhang: $$x \cdot y = |x||y| \cos(\alpha(x,y))$$

$$\iff \cos(\alpha(x,y)) = \frac{x \cdot y}{|x||y|} = \frac{\sum_{i=1}^n x_i y_i}{\sqrt{\sum_{i=1}^n x_i^2 \sum_{i=1}^n y_i^2}} = r_{XY}$$

Wobei $r_{XY}$ der Bravais-Pearson-Korrelationskoeffizient http://de.wikipedia.org/wiki/Korrelationskoeffizient ist.

Vektorbasis

Linearkombination:

$$Y = \sum_{i=1}^n b_i X_i$$

  • Anzahl der Koordinaten definiert die Dimension des Vektorraumes, der Y und alle $X_i$ enthält.
  • Die Menge der Vektoren, die durch $\{X_j\}$ erzeugt werden kann, nennt sich Spann bzw. lineare Hülle (z.B. span($X_1$), span($X_1,X_2$), $\dots$).

Die Zahl der linear unabhängigen Vektoren in ${X_j}$ entspricht der Dimension $d(V)$ des Unterraumes V, der durch {X_j} aufgespannt wird, wobei linear abhängig bedeutet (ohne triviale Lösung):

$$X_k = \sum_{j=1}^{k-1} b_j X_j + \sum_{j=k+1}^p b_j X_j$$

D.h. Vektoren sind linear unabhängig, wenn sich kein Vektor durch eine Linearkombination der anderen Vektoren darstellen lässt (in dem Fall ist das LGS eindeutig lösbar).

Die minimale Menge von Vektoren, die V erzeugt, wird Basis von V genannt.

Alle Basisvektoren liegen im rechten Winkel zueinander (cos(X,Y)=0), d.h. sie sind orthogonal zueinander.

Durch eine Projektion wird ein Vektor in rechtwinklige Komponenten zerlegt.

Beispielsweise wird ein Vektor $X$ durch eine Projektion in einen eindimensionalen Untervektorraum $V'$ abgebildet. $X'$ das in $V'$ liegt, kann dann als als Linearkombination jeglicher Mengen von Basisvektoren von $V'$ ausgedrückt werden.

Beispiel: $$(aV'-X) \perp V'\\ \iff V'^\intercal \cdot (aV'-X) = 0\\ \iff a = \frac{V'^\intercal \cdot X}{V'^\intercal \cdot V'} = \frac{V'^\intercal \cdot X}{|V'|^2}\\ X' = aV' = \frac{V'^\intercal \cdot X}{|V'|^2} V'$$

Es gilt weiterhin $X = X'+X'_\perp$, wobei beide Teile in orthogonalen Unterräumen liegen ($dim(V) = dim(V') + dim(V'_\perp)$).

Bivariate Lineare Regression

Achsenabschnitt $a = \bar{Y}_{scalar} - b\bar{X}_{scalar}$

Regressionskoeffizient b so wählen, dass Länge des Fehlervektors $e = y - bx$ minimiert wird.

e wird minimal wenn

$$e \perp x \\ \iff (y-bx) \cdot x = 0\\ \iff b = \frac{y \cdot x}{|x|^2} = \frac{\sum_i x_i y_i}{\sum_i x_i^2}$$

wobei $x_i$ zentrierte Variablen sind.

$$b = \cos \alpha(x,y) \frac{|y|}{|x|}$$

b ist also der Korrelationskoeffizient skaliert durch die Länge der Vektoren.

Winkel zwischen Vektoren (bzw. dessen Cosinus) oder Länge der Vektoren $Y$ und $\hat{Y}$.

Korrelationskoeffizient $R = \cos \alpha(\hat{y},y) = \frac{|\hat{y}|}{|y|}$

Im bivariaten Fall stimmt R mit r überein (da $\hat{y}$ auf $x$ liegt).

$R^2$ drückt den Anteil der erklärten Varianz aus.

$|y|^2 = |\hat{y}|^2 - |e|^2$ oder $SS_{total} = SS_{regression} + SS_{residual}$

Geschätzte Regressionsgerade $\hat{Y} = a \vec{1} + b_1 X_1 + \dots + b_n X_n$

Zentriert: $\hat{y} = b_1 x_1 + \dots + b_n x_n$

Finden der orthogonalen Projektion von $Y$ auf $V_x$ und des minimalen Fehlervektors e bzgl. allen Regressionskoeffizenten.

Es muss entsprechend gelten $e \perp x_1$, $e \perp x_2$.

D.h. bei $\hat{y} = b_1 x_1 + b_2 x_2$ bspw. $$x_1 \cdot e = 0 \\ \iff x_1 \cdot (y-\hat{y}) = 0 \\ \iff x_1 \cdot (y-b_1 x_1 + b_2 x_2) = 0 \\ \iff x_1 \cdot y - b_1 x_1 \cdot x_1+ b_2 x_2 \cdot x_1) = 0 \\ x_2 \cdot y - b_1 x_1 \cdot x_2+ b_2 x_2 \cdot x_2) = 0 $$

Durch das Lösen der Normalengleichung erhält man $b_1, b_2$.

  • statistik/geometrische_sicht.1345415493.txt.gz
  • Last modified: 2014/02/11 21:48
  • (external edit)