Differences
This shows you the differences between two versions of the page.
Both sides previous revisionPrevious revisionNext revision | Previous revision | ||
data_mining:large_datasets [2014/09/04 21:02] – [Algorithmen] phreazer | data_mining:large_datasets [2014/09/06 12:45] (current) – [Online Learning] phreazer | ||
---|---|---|---|
Line 18: | Line 18: | ||
===== Algorithmen ===== | ===== Algorithmen ===== | ||
- | Batch gradient descent: " | + | ==== Batch gradient descent |
+ | |||
+ | " | ||
- | Stochastic gradient descent: | + | ==== Stochastic gradient descent |
1. Randomly shuffle dataset | 1. Randomly shuffle dataset | ||
Line 30: | Line 32: | ||
} | } | ||
} | } | ||
+ | |||
+ | Wandert in die Nähe des globalen Minimums. Mehrfache Ausführung von 2. | ||
+ | |||
+ | === Konvergenz === | ||
+ | Plotten der Kostenfunktion als Funktion der Zahl von Iterationen. | ||
+ | |||
+ | $\text{cost}(\theta, | ||
+ | Berechnen dieser Kosten vor updaten von \theta. | ||
+ | Jede 1000 Iterationen plotte Kostenfkt. im Mittel über letzte 1000 Beispiele. | ||
+ | |||
+ | 1000 Kurve mit Noise. 5000, glatter aber nur alle 5000 ein Punkt. | ||
+ | |||
+ | Wenn Kurve ansteigt => Divergenz => kleineres Alpha wählen. | ||
+ | === Alpha === | ||
+ | Langsam \alpha senken, um zu konvergieren. | ||
+ | ==== Mini-Batch Gradient Descent ==== | ||
+ | |||
+ | Verwende b = mini-batch size (typisch: 2-100) | ||
+ | |||
+ | ===== Online Learning ===== | ||
+ | Wenn kontinuierlicher Datenzufluss. | ||
+ | |||
+ | Lernen von $p(y=1|x; | ||
+ | |||
+ | Repeat forever { | ||
+ | Get (x,y) corresponding to user. | ||
+ | Update \theta using (x,y) | ||
+ | \theta_j = \theta_j - \alpha (h_\theta(x)-y) x_j | ||
+ | } | ||