p-Wert, Konfidenzintervall, Forest Plot – Wenn man sich mit der Evidenz zu Gesundheitsthemen beschäftigt, begegnet man oft diesen und anderen Begriffen aus der Statistik. Um dieser Begegnung den Schrecken zu nehmen, wollen wir hier in loser Folge einige dieser Begriffe erklären – einfach, in aller Kürze und daher auf das eine oder andere statistische Detail verzichtend. Heute: Der p-Wert.
Studienergebnisse, zum Beispiel zum Nutzen eines neuen Medikaments im Vergleich zu Placebo, müssen statistisch signifikant sein – andernfalls braucht man erst gar nicht darüber zu reden. Aber was heißt das eigentlich: statistisch signifikant? Es bedeutet, dass wir uns mit ziemlich großer Sicherheit darauf verlassen können, dass der in der Studie beobachtete Unterschied nicht nur eine Laune des Zufalls ist, sondern einen echten Effekt widerspiegelt. Wie sicher wir uns dabei sein können, geben Statistiker*innen mit dem sogenannten p-Wert an.
Wie man diesen berechnet, hängt vom angewandten Testverfahren ab – Einzelheiten ersparen wir uns hier. Jedenfalls gilt: Je kleiner der p-Wert, desto kleiner das statistische Restrisiko, dass ein gefundener Unterschied rein zufällig entstanden ist. „p“ ist also eine Wahrscheinlichkeit, sie kann Werte zwischen Null und eins (bzw. Null und 100 Prozent) annehmen.
Und was bedeutet nun „statistisch signifikant“?
Wie sicher sicher genug ist, darüber kann man streiten. In der Wissenschaft hat sich als letztlich willkürliche Konvention eingebürgert, Ergebnisse mit einem p-Wert von kleiner als 0,05 (also 5%) als statistisch signifikant zu bezeichnen (ab 0,01 spricht man von „hoch signifikant“). Praktisch bedeutet dies, dass ein gefundener Unterschied kaum mehr plausibel als Zufallsprodukt erklärt werden kann, weil die verbleibende Irrtumswahrscheinlichkeit unter fünf Prozent liegt.
Achtung: Statistisch signifikant ≠ klinisch relevant
Der p-Wert hängt nicht nur von der Größe eines Unterschieds ab, sondern auch von der Zahl der Messwerte. Deshalb kann eine zu klein angelegte Studie relevante Unterschiede übersehen – man sagt, es fehlt ihr an statistischer „Power“. Auf der anderen Seite können in einer großen Studie mit jeder Menge Power auch winzige Unterschiede statistisch signifikant werden. Ob diese Unterschiede für Patient*innen dann auch wirklich bedeutend sind, ist wieder eine ganz andere Frage.
Beispiel: Medikament gegen starkes Übergewicht (Adipositas)
In einer klinischen Studie zur Gewichtsreduktion mithilfe eines bestimmten Medikaments wurde zwischen den Behandlungsgruppen ein statistisch signifikanter Unterschied von drei Kilogramm festgestellt. Da es sich bei den Teilnehmenden um schwer Übergewichtige handelte, ist dieser Unterschied aber praktisch ohne Bedeutung. Denn wenn man 150 Kilo wiegt, fallen drei Kilo weniger kaum ins Gewicht – sie sind kaum zu bemerken und gesundheitliche Vorteile sind nicht zu erwarten. Damit sich solche bemerkbar machen, sollten schwer Übergewichtige ihr Gewicht um 5 bis 10 % verringern – in unserem Beispiel also mindestens um 7,5 Kilo. Zudem muss die erreichte Gewichtsreduktion natürlich immer in einem sinnvollen Verhältnis zu den möglichen Nebenwirkungen der Behandlung stehen.
Weiterführende Informationen:
- Beitrag der Süddeutschen Zeitung: Das magische P
- Beitrag in Spektrum der Wissenschaft: Schickt die statistische Signifikanz in den Ruhestand!
- älterer Beitrag auf Wissen Was Wirkt zu häufigen Fehlern in der Interpretation von Statistik
Text: Dr. Birgit Schindler
Alle Beiträge dieser Serie: