Differences

This shows you the differences between two versions of the page.

--- data_mining:large_datasets [2014/09/04 23:02] – [Algorithmen] phreazer
+++ data_mining:large_datasets [2014/09/06 14:45] (current) – [Online Learning] phreazer
@@ Line 18: / Line 18: @@
 ===== Algorithmen =====
-Batch gradient descent: "Batch" - Alle Trainingsbeispiele berücksichtigen (also m).
+==== Batch gradient descent ====
+"Batch" - Alle Trainingsbeispiele berücksichtigen (also m).
-Stochastic gradient descent:
+==== Stochastic gradient descent ====
 . Randomly shuffle dataset
@@ Line 30: / Line 32: @@
         }
       }
+Wandert in die Nähe des globalen Minimums. Mehrfache Ausführung von 2.
+=== Konvergenz ===
+Plotten der Kostenfunktion als Funktion der Zahl von Iterationen.
+$\text{cost}(\theta,(x^{(i)},y^{(i)})) = 1/2 (h_\theta(x^{(i)})-y^{(i)})^2$
+Berechnen dieser Kosten vor updaten von \theta.
+Jede 1000 Iterationen plotte Kostenfkt. im Mittel über letzte 1000 Beispiele.
+Kurve mit Noise. 5000, glatter aber nur alle 5000 ein Punkt.
+Wenn Kurve ansteigt => Divergenz => kleineres Alpha wählen.
+=== Alpha ===
+Langsam \alpha senken, um zu konvergieren.
+==== Mini-Batch Gradient Descent ====
+Verwende b = mini-batch size (typisch: 2-100)  Beispiele in jeder Iteration.
+===== Online Learning =====
+Wenn kontinuierlicher Datenzufluss.
+Lernen von $p(y=1|x;\theta)$ um Preis zu optimieren.
+  Repeat forever {
+    Get (x,y) corresponding to user.
+    Update \theta using (x,y)
+      \theta_j = \theta_j - \alpha (h_\theta(x)-y) x_j
+  }