2.17 „Statistische Signifikanz“ sollte nicht mit „Bedeutsamkeit“ verwechselt werden

5
(1)

Wenn wir das Wort „signifikant“ lesen, läuten bei uns in Gedanken die Alarmglocken. Aussagen wie „Hier ist etwas bedeutsames passiert“ oder Synonyme wie „wesentlich“, „bemerkenswert“ und „wichtig“ kommen uns in den Sinn. Leider hat dieses ansonsten unschuldig aussehende Wort in wissenschaftlichen Kreisen zu einer signifikanten Menge an Problemen geführt, da sein Gebrauch (und Missbrauch) in Zusammenhang mit der Interpretation von Ergebnissen das Wort für immer an das Konzept der statistischen Hypothesenprüfung gekoppelt hat.

Dies ist der 29. Beitrag aus einer Blogserie zu „Schlüsselkonzepten zur besseren Bewertung von Aussagen zu Behandlungen“, die im Rahmen des Projektes Informed Health Choices erarbeitet wurden. Jeder der insgesamt 36 Blogbeiträge befasst sich mit einem Schlüsselkonzept, das dabei hilft, Aussagen zu Wirkungen von Behandlungen besser verstehen und einordnen zu können.

Wie im vorausgegangenen Key Concept-Beitrag diskutiert, legen Wissenschaftler beliebige Grenzwerte oder „Signifikanzniveaus“, idealerweise vor Beginn ihrer Arbeit, fest, um später zu ermitteln, ob ihre Ergebnisse „statistisch signifikant“ sind. Der in der Forschung am häufigsten verwendete Grenzwert ist 5 % oder p < 0,05 (wenn der p-Wert unter 0,05 liegt, wird das Ergebnis als „statistisch signifikant“ bezeichnet). Die Interpretation von Ergebnissen anhand dieses Grenzwertes ist sehr einfach (siehe auch den Artikel Konfidenzintervalle sollten angegeben werden).

Ein Beispiel

Wenn der p-Wert für den Unterschied im durchschnittlichen Gewicht zwischen zwei Gruppen von Teilnehmern unterhalb dieser Grenze (z. B. p = 0,03) liegt, können wir die Nullhypothese, d. h. dass es keinen Gewichtsunterschied zwischen den beiden Gruppen gibt, verwerfen. Das Ergebnis wird als „statistisch signifikant“ betrachtet. Liegt der p-Wert über dem Grenzwert (z. B. p = 0,10), können wir die Nullhypothese nicht verwerfen, und das Ergebnis ist „statistisch nicht signifikant“. Dieser Vorgang wird als statistische Hypothesenprüfung bezeichnet.

Es ist wichtig zu betonen, dass diese Grenze von p < 0,05 völlig beliebig ist und grundsätzlich keine besondere Bedeutung hat. Es ist klar, dass p = 0,04999 und p = 0,05001 im Grunde dasselbe sind, und doch dürfen wir im ersten Fall das Ergebnis mit den magischen Worten „statistisch signifikant“ beschreiben, im zweiten nicht. Manchmal werden Ergebnisse, die diesen Grenzwert nicht erfüllen (nicht unterschreiten), nie veröffentlicht, weil sie als „uninteressant“ oder „unwichtig“ betrachtet werden. Dies wiederum hat zu verzerrten Ergebnisdarstellungen (Publikations-Bias) und „p-Hacking“ geführt [1,2].

Aber was ist der tatsächliche Unterschied im durchschnittlichen Gewicht zwischen den beiden Teilnehmergruppen? Weder der p-Wert noch die zweigeteilten (ja/nein) Aussagen zur „statistischen Signifikanz“ vermitteln uns Informationen über die Ergebniswerte bzw. die Größe des Unterschieds. Und hier genau liegt das Problem: p-Werte sagen nur etwas darüber aus, wie wahrscheinlich es ist, dass wir dieselben Studienergebnisse rein zufällig erhalten würden. Wir wissen nichts über den tatsächlichen Wert, hier den Unterschied im durchschnittlichen Gewicht, an dem wir eigentlich interessiert sind.

Nehmen wir einmal an, der Unterschied im durchschnittlichen Gewicht zwischen den beiden Gruppen beträgt 0,1 kg, und wir ermitteln, dass dieser Unterschied „statistisch signifikant“ (p = 0,03) ist. Dies bedeutet, dass sich das durchschnittliche Gewicht in Gruppe 1 vom durchschnittlichen Gewicht in Gruppe 2 unterscheidet, und dass dieser kleine Unterschied (auf Grundlage des p-Wertes) wahrscheinlich nicht durch Zufall bedingt ist.

Auch wenn dieses Ergebnis statistisch signifikant ist: ist es wirklich bedeutsam? In der Wissenschaft wird hierfür auch verbreitet der Begriff „klinisch relevant“ verwendet.

Die Antwort auf diese Frage hängt allein vom Kontext ab und ist eine Frage der Interpretation. Wenn wir eine randomisierte, kontrollierte Studie mit erwachsenen Teilnehmern durchführen, ist ein Unterschied von 0,1 kg im durchschnittlichen Gewicht zwischen den beiden Gruppen wahrscheinlich nicht bedeutsam, selbst wenn er „statistisch signifikant“ ist. Wir wären jedoch sicherlich anderer Ansicht, wenn wir eine andere Teilnehmergruppe betrachten würden – ein Unterschied von 0,1 kg wäre zum Beispiel bei Neugeborenen weitaus bedeutsamer.

Wenn wir die Anzahl der Ergebniswerte erhöhen, wird unsere Schätzung des wahren Unterschieds präziser. In anderen Worten, steigt unser Vertrauen, dass die Ergebnisse nicht rein zufällig entstanden sind. Theoretisch können selbst die winzigsten, unbedeutendsten Unterschiede statistisch signifikant werden, wenn es ausreichend viele Ergebniswerte gibt. Auf der anderen Seite kann das übermäßige Vertrauen in die statistische Signifikanz dazu führen, dass wir wesentliche Unterschiede übersehen oder unsichere Ergebnisse fälschlicherweise als negative Ergebnisse einstufen. Aufgrund des Zusammenhangs zwischen dem p-Wert und der Stichprobengröße (Teilnehmerzahl) tritt dieses Problem vor allem in Studien mit einer geringeren Anzahl von Ergebniswerten auf. Aus diesem Grund ist es sehr wichtig, statistische Signifikanz nicht mit Bedeutsamkeit zu verwechseln.

Manchmal werden Ergebnisse, die nicht „statistisch signifikant“ sind, niemals veröffentlicht, da sie für „uninteressant“ oder „unbedeutend“ gehalten werden. Dies wiederum hat zu Verzerrungen in der Darstellung der Ergebnisse geführt.

Ein weiteres Beispiel

Wir möchten herausfinden, ob eine neue chirurgische Intervention bei einem Hirntumor besser wirkt als die derzeitige Standard-Chemotherapie. Dazu betrachten wir die folgenden hypothetischen Ergebnisse:

Hypothetisches Ergebnis 1: „Die neue chirurgische Intervention hat die Anzahl der Todesfälle im Vergleich zur Standard-Chemotherapie statistisch signifikant (p = 0,04) verringert.“

Was bedeutet signifikant hier? Meinen die Autoren damit wesentlich weniger Todesfälle oder nur eine statistisch signifikant geringere Anzahl von Todesfällen? Dies ist nicht klar, aber wahrscheinlich ist letzteres gemeint, weil der p-Wert angegeben ist. Wir haben in diesem Fall keine Informationen darüber, wie genau die neue chirurgische Intervention der Chemotherapie überlegen ist.

Hypothetisches Ergebnis 2: „Die neue chirurgische Intervention hat die Anzahl der Todesfälle im Vergleich zur Standard-Chemotherapie statistisch signifikant (p = 0,04) verringert. Nach fünf Jahren gab es in der chirurgischen Interventionsgruppe zwei Todesfälle weniger.“

Diesmal ist der exakte Unterschied in der Anzahl der Todesfälle angegeben. Es ist zudem klar, dass sich das Wort „signifikant“ in diesem Fall auf die statistische Signifikanz bezieht, da ein Unterschied von zwei kein großer Unterschied ist.

Als Leser ist es nun wichtig, diese Ergebnisse zu kontextualisieren. Bei einer explorativen Studie, in der jede Gruppe nur 10 Teilnehmer umfasste, wäre eine Anzahl von zwei Todesfällen weniger in der Interventionsgruppe bedeutsam und würden weitergehende Untersuchungen erforderlich machen. In einer großen klinischen Studie mit 1.000 Teilnehmern in jeder Gruppe sind zwei Todesfälle weniger beeindruckend, auch wenn das Ergebnis statistisch signifikant ist. In diesem Fall würden wir die beiden Interventionen als in etwa gleichwertig betrachten und unsere Entscheidung bezüglich der Behandlung auf Grundlage anderer Faktoren treffen.

Hypothetisches Ergebnis 3: „Die neue chirurgische Intervention hat die Anzahl der Todesfälle im Vergleich zur Standardchemotherapie nicht statistisch signifikant (p = 0,07) verringert. Nach fünf Jahren gab es einen Todesfall in der chirurgischen Interventionsgruppe und neun Todesfälle in der Standard-Chemotherapiegruppe.“

Dieses Mal haben wir ein statistisch nicht signifikantes Ergebnis, das mit einem großen Unterschied in der Anzahl der Todesfälle (8 weniger) einhergeht. In diesem Fall scheint die Behandlung einen bedeutsamen Effekt zu haben, jedoch fehlt es der Studie vielleicht an „Power“ (ist sie nicht ausreichend groß) für einen statistisch signifikanten Unterschied. Auch hier benötigen wir mehr Informationen zur Größe der Studie, um die Ergebnisse kontextualisieren zu können. Allein auf Grundlage einer statistischen Signifikanzprüfung den Schluss zu ziehen, dass diese Studie keinen Unterschied zwischen den Gruppen zeigt, wäre unangemessen.

Zusammengefasst…

…ist anhand dieser Beispiele hoffentlich deutlich geworden, dass das Wort „signifikant“ im wissenschaftlichen Kontext eher irreführend sein kann. Zum Glück gibt es noch eine Vielzahl anderer Wörter, wie „wichtig“, „bedeutsam“, „klinisch relevant“, „interessant“ und so weiter, die Sie stattdessen verwenden können, um auf die Bedeutung von Ergebnissen hinzuweisen, ohne sich auf diesen beliebig gesetzten Grenzwert zu beziehen. Achten Sie zudem bei der Präsentation von Ergebnissen darauf, absolute Ergebniswerte („die Punktschätzer“) und die zugehörigen Konfidenzintervalle anstelle des irreführenden p-Werts und des zweigeteilten Konzepts der Hypothesenprüfung zu verwenden.

Text: Jessica Rohmann

Übersetzt von: Brita Fiess

Zum Originaltext

Literaturhinweise:

[1] Masicampo EJ, Lalande DR. A peculiar prevalence of p values just below .05. The Quarterly Journal of Experimental Psychology. 2012;65(11):22719.
[2] Head ML, Holman L, Lanfear R, Kahn AT, Jennions MD. The Extent and Consequences of P-Hacking in Science. PLoS Biol. 2015;13(3):e1002106.

Anmerkung: Aus Gründen der besseren Lesbarkeit wird auf die gleichzeitige Verwendung männlicher und weiblicher Sprachformen verzichtet. Sämtliche Personenbezeichnungen gelten gleichermaßen für alle Geschlechter.

Wie gefällt Ihnen dieser Artikel?

Klicken Sie auf einen Stern, um den Artikel zu bewerten.

Durchschnittsbewertung: 5 / 5. Anzahl an Bewertungen: 1

Bisher keine Bewertungen. Seien Sie die/der Erste!

Wir freuen uns über Rückmeldung von Ihnen!

Schreiben Sie uns, was wir in Zukunft verbessern oder beibehalten sollten?