data_mining:svm

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
Last revisionBoth sides next revision
data_mining:svm [2014/08/17 20:33] – [Feature Vector f] phreazerdata_mining:svm [2014/08/17 21:05] – [Parameterwahl] phreazer
Line 90: Line 90:
  
 Durch Minimierung der Kostenfunktion, jetzt mit $\theta^T f^{(i)}$ anstelle von $\theta^T f^{(i)}$. Durch Minimierung der Kostenfunktion, jetzt mit $\theta^T f^{(i)}$ anstelle von $\theta^T f^{(i)}$.
 +
 +==== Parameterwahl ====
 +
 +$C = \frac{1}{\lambda}$
 +
 +Großes C: Niedriger Bias, hohe Varianz => Overfitting
 +Niedriges C: Hoher Bias, niedrige Varianz => Underfitting
 +
 +$\sigma^2$
 +
 +Groß: Features variieren sanfter
 +=> Hoher Bias, niedrige Varianz
 +Niedrig: Features varrieren abrupter
 +=> Niedriger Bias, hohe Varianz
 +
 +===== Kernelwahl =====
 +
 +  * Kein Kernel (linear Kernel): n groß, m klein
 +  * Gaussian Kernel: n klein, m groß
 +    * Implementierung der Ähnlichkeitsfunktion (bzw. Features $f_i$)
 +    * Feature Scaling vor Verwendung des Gaussian Kernel $||v||^2 = v_1^2 + v_2^2 + \dots + v_n^2$
 +    * Polynomial Kernels: Eher selten benutzt
 +    * Weitere
 +
 +Manche Ähnlichkeitsfunktionen erzeugen keine gültigen Kernel. Diese müssen Mercer's Theorem erfüllen (aufgrund Optimierungen und Konvergenz).
 +
 +===== Algowahl =====
 +
 +  * Wenn n groß gegenüber m: Log Reg oder SVM ohne Kernel
 +  * Wenn n klein (1-1000) und m mittelgroß (10-10000): SVM mit Gaussian Kernel
 +  * Wenn n klein (1-1000) und m groß (50000+): Mehr Features + Log Reg oder SVM ohne Kernel
 +
  • data_mining/svm.txt
  • Last modified: 2014/08/17 21:11
  • by phreazer