data_mining:error_analysis

This is an old revision of the document!


Error Analysis

Fehlklassifizierte Tupel betrachten, prüfen

  • Welcher Klasse eigentlich zugehörig
  • Welche Features geholfen hätte, diese Klasse zu erkennen

Schwierige Beispiele identifizieren.

Skewed classes

Problem:

99% Accuracy, aber nur 0,5 % der Fälle true. Immer false, würde bessere Accuracy bringen.

Andere Evaluationsmetrik:

Precision/Recall

y = 1, wenn true

Predicted | 1 | True positive | False positive class | 0 | False negative | True negative

Precision: Anteil der tatsächlichen true positives von allen als true vorhergesagten.

$\frac{TP}{TP + FP}$

Recall: Von allen Patienten, welchen Anteil wurde korrekt als true erkannt?

$\frac{TP}{TP + FN}$

Für y = 0 ⇒ Recall würde 0 sein.

Angenommen, $h_\theta(x) >= 0.7$ anstelle von 0.5 und h_\theta(x) < 0.7 Dann hohe Präzision, niedrigerer Recall

Und umgekehrt wenn z.B. $h_\theta(x) >= 0.3$

Zum Vergleich von Precision/Recall.

Durchschnitt: $(P+R)/2$ nicht gut, da es möglich ist immer 1 oder 0 zu tippen.

$F_1$ Score : $2 * \frac{P*R}{P+R}$

Bias / Variance

  • High Bias (underfit): High train and validation error (similar level, e.g. error of train: 15% | val: 16%)
  • High Variance (overfit): Low train, high validation error (e.g. error of train: 1% | val: 11%)
  • High Bias and High Variance: High train error, significant higher validation error (e.g. error of train: 15% | val: 30%)

Plot: Error / Degree of Polynom (with Training and cross validation error)

  • Hohes $\lambda$: Underfit
  • Niedriges $\lambda$: Overfit

Strategie: Increase regularization parameter stepwise (x2), and check what leads to lowest CV error. Then check for test set.

Plot: Error/m (training set size)

  • Trainingsetfehler nimmt mit höherer Zahl an Trainingsbeispielen zu.
  • Testsetfehler nimmt mit höherer Zahl an Trainingsbeispielen ab.

High bias:

  • Trainingsetfehler nimmt mit höherer Zahl an Trainingsbeispielen zu, sehr nah an Testsetfehler.
  • Testsetfehler nimmt mit höherer Zahl an Trainingsbeispielen ab, bleibt schneller auf einem Niveau.
  • Generell höheres Fehlerniveau

Wenn von High bias betroffen, dann helfen mehr Trainingsdaten i.d.R nicht.

High variance:

  • Trainingsetfehler nimmt mit höherer Zahl an Trainingsbeispielen zu, bleibt aber eher gering.
  • Testsetfehler nimmt mit höherer Zahl an Trainingsbeispielen ab.
  • Lücke zwischen Training und Crossvalidation error.

Wenn von High bias betroffen, dann helfen mehr Trainingsdaten i.d.R.

  1. High Bias:
    • Additional features
    • Additional polynomial features
    • Decrease Lambda (regularization parameter)
  2. High Variance:
    • More data
    • Smaller number of features
    • Increase Lambda (regularization parameter)

Recommended order:

  1. High bias (look at train set performance):
    • Bigger network (more hidden layers / units)
    • Train longer
    • Advanced optimization algorithms
    • Better NN architecture
  2. High variance (look at dev set performance)
    • More data (won't help for high bias problems)
    • Regularization
    • Better NN architecture

Bigger network almost always improves bias and more data improves variance (not necessarily a tradeoff between the two).

Best case performance if no false positives?

E.g. 100 mislabeled dev set examples, how many are dog images (when training a cat classifier). When 50% could be worth to work on problem (if error is currently at 10% ⇒ 5%).

Evaluate multiple ideas in parallel - Fix false positives - Fix false negatives - Improve performance on blurry images

Create spread sheet: Image / Problem Calc percentage of problem category

  • data_mining/error_analysis.1526923677.txt.gz
  • Last modified: 2018/05/21 19:27
  • by phreazer