Differences

This shows you the differences between two versions of the page.

--- data_mining:regression [2014/07/13 03:11] – [Learning rate $\alpha$] phreazer
+++ data_mining:regression [2014/07/13 03:37] – [Normalengleichungen] phreazer
@@ Line 104: / Line 104: @@
 $\theta_j := \theta_j - alpha \frac{\partial}{\partial\theta_j} J(\theta)$
+==== Normalengleichungen ====
+  * Feature-/Designmatrix X (Dim: m x (n+1))
+  * Vector y (Dim: m)
+$\theta = (X^TX)^{-1}X^Ty$
+  * Feature scaling nicht notwendig.
+Was wenn $X^TX$ singulär (nicht invertierbar)?
+(pinv in Octave)
+**Gründe für Singularität:**
+  * Redundante Features (lineare Abhängigkeit)
+  * Zu viele Features (z.B. $m <= n$)
+    * Lösung: Features weglassen oder regularisieren
+**Wann was benutzten?**
+  * m training tupel, n features
+  * GD funktioniert bei großem n (> 1000) gut, Normalengleichung muss (n x n) Matrix invertieren, liegt ungefähr in $O(n^3)$.
 ===== Gradient Descent Improvements =====