Differences

This shows you the differences between two versions of the page.

--- data_mining:gradient_boosting [2016/01/17 15:19] – angelegt phreazer
+++ data_mining:gradient_boosting [2016/02/01 22:44] – phreazer
@@ Line 3: / Line 3: @@
 Grundlegendes simples Problem:
-Gegeben Vektor von unabhängigen Veriablen $X = (X_1, ..., X_n)^T$ finde eine optimale Funktion $f*(X)$, die abhängige Variable $Y$ vorhersagt.
+Gegeben Vektor von unabhängigen Veriablen $X = (X_1, ..., X_n)^T$ finde eine optimale Funktion $f^*(X)$, die abhängige Variable $Y$ vorhersagt.
-$f*(X)$ sollte interpretierbar sein, d.h. eine Struktur besitzen, die den Anteil jedes Beitrags eines unabhängigen Variablen erklärt.
+$f^*(X)$ sollte interpretierbar sein, d.h. eine Struktur besitzen, die den Anteil jedes Beitrags eines unabhängigen Variablen erklärt.
-Beispiel hierfür ist die GLM-Struktur:
+Beispiel hierfür ist die GLM-Struktur (Generalized Linear Model (Nelder & Wedderburn):
-$$f*(X) = \beta_0 + \beta_1 X_1 + ... + \beta_n X_n$$
+$$f^*(X) = \beta_0 + \beta_1 X_1 + ... + \beta_n X_n$$
-Beispiel für eine GAM-Struktur
+(Unterschied zu LM: Fehlerterm muss nicht normalverteilt sein, sondern kann Verteilung der exponentiellen Familie besitzen)
-$$f*(X) = \beta_0 + f_1(X_1) + ... + f_n(X_n)$$
+Beispiel für eine GAM-Struktur (Generalized Additive Model):
+$$f^*(X) = \beta_0 + f_1(X_1) + ... + f_n(X_n)$$
+Typische Vorgehensweise ist die ML-Schätzung um ein Regressionsmodell zu fitten.
+Probleme ML-Schätzung:
+  * Multikollinearität der Prädiktorvariablen (feature selection notwendig)
+  * Gewöhnliche Featureselektion (univariate, forward/backward) sind instabil oder erfordern das mehrfache Fitten des Modells.