Differences

This shows you the differences between two versions of the page.

--- data_mining:svm [2014/08/17 20:41] – [Feature Vector f] phreazer
+++ data_mining:svm [2014/08/17 21:11] (current) – [Parameterwahl] phreazer
@@ Line 95: / Line 95: @@
 $C = \frac{1}{\lambda}$
-Großes C: Niedriger Bias, hohe Varianz => Overfitting
+  * Großes C: Niedriger Bias, hohe Varianz => Overfitting
-Niedriges C: Hoher Bias, niedrige Varianz => Underfitting
+  * Niedriges C: Hoher Bias, niedrige Varianz => Underfitting
-$sigma^2$
+$\sigma^2$
+  * Groß: Features variieren sanfter => Hoher Bias, niedrige Varianz
+  * Niedrig: Features varrieren abrupter => Niedriger Bias, hohe Varianz
+===== Kernelwahl =====
+  * Kein Kernel (linear Kernel): n groß, m klein
+  * Gaussian Kernel: n klein, m groß
+    * Implementierung der Ähnlichkeitsfunktion (bzw. Features $f_i$)
+    * Feature Scaling vor Verwendung des Gaussian Kernel $||v||^2 = v_1^2 + v_2^2 + \dots + v_n^2$
+    * Polynomial Kernels: Eher selten benutzt
+    * Weitere
+Manche Ähnlichkeitsfunktionen erzeugen keine gültigen Kernel. Diese müssen Mercer's Theorem erfüllen (aufgrund Optimierungen und Konvergenz).
+===== Algowahl =====
+  * Wenn n groß gegenüber m: Log Reg oder SVM ohne Kernel
+  * Wenn n klein (1-1000) und m mittelgroß (10-10000): SVM mit Gaussian Kernel
+  * Wenn n klein (1-1000) und m groß (50000+): Mehr Features + Log Reg oder SVM ohne Kernel
-Groß: Features variieren sanfter
-=> Hoher Bias, niedrige Varianz
-Niedrig: Features varrieren abrupter
-=> Niedriger Bias, hohe Varianz