Differences

This shows you the differences between two versions of the page.

--- data_mining:large_datasets [2014/09/06 14:27] – [Stochastic gradient descent] phreazer
+++ data_mining:large_datasets [2014/09/06 14:45] (current) – [Online Learning] phreazer
@@ Line 38: / Line 38: @@
 Plotten der Kostenfunktion als Funktion der Zahl von Iterationen.
-$\cost(\theta,(x^{(i)},y^{(i)})) = 1/2 (h_theta(x^{(i)})-y^{(i)})^2$
+$\text{cost}(\theta,(x^{(i)},y^{(i)})) = 1/2 (h_\theta(x^{(i)})-y^{(i)})^2$
 Berechnen dieser Kosten vor updaten von \theta.
 Jede 1000 Iterationen plotte Kostenfkt. im Mittel über letzte 1000 Beispiele.
-=== Alpha ===
+Kurve mit Noise. 5000, glatter aber nur alle 5000 ein Punkt.
+Wenn Kurve ansteigt => Divergenz => kleineres Alpha wählen.
+=== Alpha ===
+Langsam \alpha senken, um zu konvergieren.
 ==== Mini-Batch Gradient Descent ====
 Verwende b = mini-batch size (typisch: 2-100)  Beispiele in jeder Iteration.
+===== Online Learning =====
+Wenn kontinuierlicher Datenzufluss.
+Lernen von $p(y=1|x;\theta)$ um Preis zu optimieren.
+  Repeat forever {
+    Get (x,y) corresponding to user.
+    Update \theta using (x,y)
+      \theta_j = \theta_j - \alpha (h_\theta(x)-y) x_j
+  }