Differences
This shows you the differences between two versions of the page.
Both sides previous revisionPrevious revisionNext revision | Previous revision | ||
data_mining:svm [2014/08/16 13:16] – [Mathematische Sicht] phreazer | data_mining:svm [2014/08/17 19:11] (current) – [Parameterwahl] phreazer | ||
---|---|---|---|
Line 44: | Line 44: | ||
Nicht-lineare Decision Boundary | Nicht-lineare Decision Boundary | ||
+ | |||
+ | Gegeben x, berechne neue Features abhängig von der Nähe zu Landmarks $l^{(1)}, l^{(2)}, l^{(3)}$. | ||
+ | |||
+ | Gegeben x: | ||
+ | $$f_1 = \text{similarity}(x, | ||
+ | f_2 = \text{similarity}(x, | ||
+ | $$ | ||
+ | |||
+ | Ähnlichkeitsfunktionen = Kernel $k(x, | ||
+ | |||
+ | Hier Gaussian Kernel. | ||
+ | |||
+ | |||
+ | Wenn $x \approx l^{(1)}$: $f_1 \approx 1$ | ||
+ | |||
+ | Wenn $x$ weit entfernt von $l^{(1)}$: $f_1 \approx 0$ | ||
+ | |||
+ | |||
+ | Anpassen von $\sigma$ | ||
+ | |||
+ | ===== Landmarks ===== | ||
+ | |||
+ | Sage $y=1$ vorher wenn $\theta_0 + \theta_1 f_1 + \theta_2 f_2 + \theta_3 f_3 \geq 0$ | ||
+ | |||
+ | Wie $l^{(1)}, l^{(2)}, l^{(3)}, ...$ wählen? | ||
+ | |||
+ | $l^{(1)} = x^{(1)}$ usw. | ||
+ | |||
+ | ==== Feature Vector f ==== | ||
+ | |||
+ | $f_1 = \text{similarity}(x, | ||
+ | |||
+ | Für $x^{(i)}$ muss entsprechend berechnet werden: | ||
+ | |||
+ | $$ | ||
+ | f_1^{(i)} = \text{sim}(x^{(i)}, | ||
+ | f_2^{(i)} = \text{sim}(x^{(i)}, | ||
+ | \dots \\ | ||
+ | f_m^{(i)} = \text{sim}(x^{(i)}, | ||
+ | $$ | ||
+ | |||
+ | Sage y=1 vorher, wenn $\theta^T f \geq 0$ | ||
+ | |||
+ | Wie bekommt man $\theta$? | ||
+ | |||
+ | Durch Minimierung der Kostenfunktion, | ||
+ | |||
+ | ==== Parameterwahl ==== | ||
+ | |||
+ | $C = \frac{1}{\lambda}$ | ||
+ | |||
+ | * Großes C: Niedriger Bias, hohe Varianz => Overfitting | ||
+ | * Niedriges C: Hoher Bias, niedrige Varianz => Underfitting | ||
+ | |||
+ | $\sigma^2$ | ||
+ | |||
+ | * Groß: Features variieren sanfter => Hoher Bias, niedrige Varianz | ||
+ | * Niedrig: Features varrieren abrupter => Niedriger Bias, hohe Varianz | ||
+ | |||
+ | ===== Kernelwahl ===== | ||
+ | |||
+ | * Kein Kernel (linear Kernel): n groß, m klein | ||
+ | * Gaussian Kernel: n klein, m groß | ||
+ | * Implementierung der Ähnlichkeitsfunktion (bzw. Features $f_i$) | ||
+ | * Feature Scaling vor Verwendung des Gaussian Kernel $||v||^2 = v_1^2 + v_2^2 + \dots + v_n^2$ | ||
+ | * Polynomial Kernels: Eher selten benutzt | ||
+ | * Weitere | ||
+ | |||
+ | Manche Ähnlichkeitsfunktionen erzeugen keine gültigen Kernel. Diese müssen Mercer' | ||
+ | |||
+ | ===== Algowahl ===== | ||
+ | |||
+ | * Wenn n groß gegenüber m: Log Reg oder SVM ohne Kernel | ||
+ | * Wenn n klein (1-1000) und m mittelgroß (10-10000): SVM mit Gaussian Kernel | ||
+ | * Wenn n klein (1-1000) und m groß (50000+): Mehr Features + Log Reg oder SVM ohne Kernel | ||
+ |