Differences
This shows you the differences between two versions of the page.
Both sides previous revisionPrevious revisionNext revision | Previous revisionLast revisionBoth sides next revision | ||
data_mining:large_datasets [2014/09/04 23:02] – [Algorithmen] phreazer | data_mining:large_datasets [2014/09/06 14:41] – phreazer | ||
---|---|---|---|
Line 18: | Line 18: | ||
===== Algorithmen ===== | ===== Algorithmen ===== | ||
- | Batch gradient descent: " | + | ==== Batch gradient descent |
+ | |||
+ | " | ||
- | Stochastic gradient descent: | + | ==== Stochastic gradient descent |
1. Randomly shuffle dataset | 1. Randomly shuffle dataset | ||
Line 31: | Line 33: | ||
} | } | ||
+ | Wandert in die Nähe des globalen Minimums. Mehrfache Ausführung von 2. | ||
+ | |||
+ | === Konvergenz === | ||
+ | Plotten der Kostenfunktion als Funktion der Zahl von Iterationen. | ||
+ | |||
+ | $\text{cost}(\theta, | ||
+ | Berechnen dieser Kosten vor updaten von \theta. | ||
+ | Jede 1000 Iterationen plotte Kostenfkt. im Mittel über letzte 1000 Beispiele. | ||
+ | |||
+ | 1000 Kurve mit Noise. 5000, glatter aber nur alle 5000 ein Punkt. | ||
+ | |||
+ | Wenn Kurve ansteigt => Divergenz => kleineres Alpha wählen. | ||
+ | === Alpha === | ||
+ | Langsam \alpha senken, um zu konvergieren. | ||
+ | ==== Mini-Batch Gradient Descent ==== | ||
+ | |||
+ | Verwende b = mini-batch size (typisch: 2-100) | ||
+ | |||
+ | ===== Online Learning ===== | ||
+ | Lernen von $p(y=1|x; | ||