Teststärke

Alternativ: Power, Macht, Trennschärfe

Die Power eines t-Tests ist die Fähigkeit des Tests, einen Effekt zu finden, falls dieser tatsächlich existiert.

  • 1-$\beta$ ist die Teststärke ($H_0$ wird abgelehnt und $H_0$ trifft tatsächlich nicht zu. D.h. es handelt sich um die die Wahrscheinlichkeit, dass man einen bestehenden Unterschied auch nachweist.)
  • $\beta$ ist die Wahrscheinlichkeit einen Fehler 2. Art zu begehen ($H_0$ wird abgelehnt und $H_0$ trifft tatsächlich zu)

Cohen: “The statistical power of a significance test is the long-term probability, given the population effect size, significance criterion and sample size of rejection of $H_0$”.

Die Teststärke wird getrieben durch

  • Stärke des in der Gegenhypothese unterstellten Effekts (Je stärker der Effekt, desto höher die Teststärke)
  • Akzeptierte Irrtumswahrscheinlichkeit (je kleiner $\alpha$, desto größer $\beta$; je kleiner $\beta$ desto größer die Teststärke)
  • Stichprobengröße (da Standardfehler kleiner wird)

Richtwert für das $\beta$ ist nach Cohen ein 4-mal so hoher Wert als $\alpha$. D.h. für ein $\alpha$ = 5%, sollte gelten: $\beta$ = 20%.

Der $\beta$-Fehler gibt die Wahrscheinlichkeit an, mit der die Nullhypothese beibehalten wird, obwohl in der Population eine Abweichung von der Nullhypothese in einem bestimmten Ausmaß (der Effektgröße) besteht. Eine Teststärke von .80 besagt dann, dass vier von fünf Untersuchungen eines bestimmten Stichprobenumfangs den spezifizierten Effekt auf dem angegebenen $\alpha$-Fehler-Niveau als signifikant ausweisen werden (wenn es ihn denn gibt).

Einfluss des Effekts: Bei einem kleinen angenommenen Effekt liegen die Verteilungen der $H_0$ und der $H_1$ eng zusammen, sie überschneiden sich in der Regel stark (es sei denn, die Streuungen der Verteilungen sind extrem gering). Ein Signifikanzniveau $\alpha$ = 0,05 hat einen großen $\beta$-Fehler zur Folge, der t-Test hat eine geringe Teststärke. Bei einem größeren angenommenen Effekt wird die $\beta$-Fehler-Wahrscheinlichkeit bei gleichem $\alpha$ = 0,05 und gleichen Streuungen kleiner, die Teststärke größer.

  1. Fall: $H_0$ wird nicht abgelehnt
    1. Hohe Teststärke: Evidenz für $H_0$, Widerlegung der substanziellen Forschungshypothese
    2. Niedrige Teststärke: Keine Aussage möglich
  2. Fall: $H_0$ wird abgelehnt
    1. Hohe Teststärke: Auch sehr kleine Effekte können signifikant sein
    2. Niedrige Teststärke: Unterstützung von $H_1$