Error Analysis

This is an old revision of the document!

Fehlklassifizierte Tupel betrachten, prüfen

Welcher Klasse eigentlich zugehörig
Welche Features geholfen hätte, diese Klasse zu erkennen

Schwierige Beispiele identifizieren.

Problem:

99% Accuracy, aber nur 0,5 % der Fälle true. Immer false, würde bessere Accuracy bringen.

Andere Evaluationsmetrik:

Precision/Recall

y = 1, wenn true

Precision: Anteil der tatsächlichen true positives von allen als true vorhergesagten.

$\frac{TP}{TP + FP}$

Recall: Von allen Patienten, welchen Anteil wurde korrekt als true erkannt?

$\frac{TP}{TP + FN}$

Für y = 0 ⇒ Recall würde 0 sein.

Angenommen, $h_\theta(x) >= 0.7$ anstelle von 0.5 und h_\theta(x) < 0.7 Dann hohe Präzision, niedrigerer Recall

Und umgekehrt wenn z.B. $h_\theta(x) >= 0.3$

Zum Vergleich von Precision/Recall.

Durchschnitt: $(P+R)/2$ nicht gut, da es möglich ist immer 1 oder 0 zu tippen.

$F_1$ Score : $2 * \frac{P*R}{P+R}$

High Bias (underfit): High train and validation error (similar level, e.g. error of train: 15% | val: 16%)
High Variance (overfit): Low train, high validation error (e.g. error of train: 1% | val: 11%)
High Bias and High Variance: High train error, significant higher validation error (e.g. error of train: 15% | val: 30%)

Plot: Error / Degree of Polynom (with Training and cross validation error)

Hohes $\lambda$: Underfit
Niedriges $\lambda$: Overfit

Strategie: Increase regularization parameter stepwise (x2), and check what leads to lowest CV error. Then check for test set.

Plot: Error/m (training set size)

Trainingsetfehler nimmt mit höherer Zahl an Trainingsbeispielen zu.
Testsetfehler nimmt mit höherer Zahl an Trainingsbeispielen ab.

High bias:

Trainingsetfehler nimmt mit höherer Zahl an Trainingsbeispielen zu, sehr nah an Testsetfehler.
Testsetfehler nimmt mit höherer Zahl an Trainingsbeispielen ab, bleibt schneller auf einem Niveau.
Generell höheres Fehlerniveau

Wenn von High bias betroffen, dann helfen mehr Trainingsdaten i.d.R nicht.

High variance:

Trainingsetfehler nimmt mit höherer Zahl an Trainingsbeispielen zu, bleibt aber eher gering.
Testsetfehler nimmt mit höherer Zahl an Trainingsbeispielen ab.
Lücke zwischen Training und Crossvalidation error.

Wenn von High bias betroffen, dann helfen mehr Trainingsdaten i.d.R.

High Bias:
- Additional features
- Additional polynomial features
- Decrease Lambda (regularization parameter)
High Variance:
- More data
- Smaller number of features
- Increase Lambda (regularization parameter)

Recommended order:

High bias (look at train set performance):
- Bigger network (more hidden layers / units)
- Train longer
- Advanced optimization algorithms
- Better NN architecture
High variance (look at dev set performance)
- More data (won't help for high bias problems)
- Regularization
- Better NN architecture

Bigger network almost always improves bias and more data improves variance (not necessarily a tradeoff between the two).

Best case performance if no false positives?

E.g. 100 mislabeled dev set examples, how many are dog images (when training a cat classifier). When 50% could be worth to work on problem (if error is currently at 10% ⇒ 5%).

Evaluate multiple ideas in parallel - Fix false positives - Fix false negatives - Improve performance on blurry images

Create spread sheet: Image / Problem Calc percentage of problem category