Sicherlich sind auch Sie bei der Auswertung von wissenschaftlicher Literatur oder im Rahmen Ihrer eigenen Forschungsarbeiten schon einmal auf das unschuldig aussehende „p“ gestoßen. Meiner Erfahrung nach sind die meisten Menschen zwar mit p-Werten vertraut. Nur wenige können jedoch erklären, was sie bedeuten.
Dies ist der 28. Beitrag einer Blogserie zu „Schlüsselkonzepten zur besseren Bewertung von Aussagen zu Behandlungen“, die im Rahmen des Projektes Informed Health Choices erarbeitet wurden. Jeder der insgesamt 36 Blogbeiträge befasst sich mit einem Schlüsselkonzept, das dabei hilft, Aussagen zu Wirkungen von Behandlungen besser verstehen und einordnen zu können.
Dieses Wirrwarr sowie ein grassierender Fehlgebrauch haben dazu geführt, dass das „p“ zu einem umstrittenen Thema geworden und sogar aus einigen Fachzeitschriften völlig verbannt worden ist. In diesem Beitrag wird diskutiert, weshalb die Verwendung von p-Werten zur Darstellung von Ergebnissen problematisch sein kann. Es werden Alternativen erkundet, die eventuell besser dazu geeignet sind, Informationen über das Vertrauen in die Studienergebnisse zu vermitteln.
Bei der Beschreibung von Forschungsergebnissen ist die wichtigste Zahl, die angegeben wird, der Punktschätzer (z. B. ein Unterschied im Risiko zwischen zwei Gruppen, Risikodifferenz genannt). Dieser Wert ist die „beste Schätzung“ des wahren Unterschieds. Da Studien jedoch nur an einer Stichprobe aus der größeren interessierenden Grundgesamtheit durchgeführt werden, weicht die Punktschätzung für die Stichprobe unweigerlich vom unbekannten wahren Unterschied zwischen den Gruppen ab. Das heißt, der wahre Unterschied kann größer oder kleiner als der geschätzte Wert sein. Dies kann entweder durch Bias, Zufallsfehlern auf Basis der Stichprobenauwahl („Zufall“) oder eine Kombination aus beidem bedingt sein.
In der Forschung werden statistische Untersuchungen dazu verwendet, Daten darüber zu erhalten, wie wahrscheinlich es ist, dass der beobachtete Unterschied lediglich zufallsbedingt zustande gekommen ist. Üblicherweise wird ein p-Wert berechnet. Das „P“ steht für ‘Probabilität‘, und bezieht sich auf die Wahrscheinlichkeit, Unterschiede zu beobachten, die genauso groß wie die in der Studie beobachteten oder größer sind, wobei davon ausgegangen wird, dass in Wirklichkeit kein wahrer Unterschied besteht (d. h. es wird davon ausgegangen, dass die Nullhypothese wahr ist).
Eine hypothetische Studie
In einer Präventionsstudie untersuchen wir den Unterschied zwischen zwei Gruppen (einer Behandlungs- und einer Placebogruppe) im Risiko, die Krankheit X zu entwickeln. Wir stellen fest, dass das Risiko in der Behandlungsgruppe geringer ist als das Risiko in der Placebogruppe. Unser statistischer Test ergibt für die Risikodifferenz einen niedrigen p-Wert von p = 0,001.
Dies bedeutet, dass es sehr unwahrscheinlich ist, dass derselbe Unterschied beobachtet worden wäre, wenn kein wahrer Unterschied zwischen den Vergleichsgruppen bestünde (Nullhypothese). In anderen Worten: wir können uns ziemlich sicher sein, dass dieser Unterschied im Risiko wirklich besteht, und dass unsere Behandlung das Risiko, Krankheit X zu entwickeln, verringert. In Wahrheit werden wir es nie sicher wissen. Selbst bei einem niedrigen p-Wert besteht weiterhin die Möglichkeit, dass die Nullhypothese fälschlicherweise verworfen wird, obwohl sie tatsächlich wahr ist (ein „falsch-positiver“ Wert). Dies wird als Fehler 1. Art bezeichnet.
Statistische Hypothesenprüfung
Wie groß darf der Fehler 1. Art sein, um noch akzeptabel zu sein? Genau an dieser Stelle kommt das Konzept der statistischen Hypothesentestung ins Spiel. Bei einem Hypothesentest wird der p-Wert im Vergleich zu einem vorab festgelegten Grenzwert (Signifikanzniveau) ermittelt, der angibt, wie groß der Fehler 1. Art sein darf, der noch toleriert werden kann (häufig 0,05 oder 5% ). Das Konzept ist ziemlich einfach: wenn p < 0,05, werden die Ergebnisse als „statistisch signifikant“ betrachtet. Wenn nicht, sind die Ergebnisse „statistisch nicht signifikant“. Aber weshalb genau 0,05? Dieser Grenzwert ist völlig willkürlich gewählt. Wie Rosendaal sagt: „Es steckt keine Logik dahinter. Es gibt keine mathematische oder biologische Begründung, die einen Grenzwert von 5% stützt [3]. Leider herrscht in der heutigen Forschung ein großer Druck, „statistisch signifikante“ Ergebnisse auf Basis eines auf diesem willkürlich festgelegten Grenzwert basierenden Hypothesentests zu erhalten.
Beachten Sie, dass bis jetzt noch nichts über die tatsächliche Punktschätzung/Effektgröße für unsere Beispielstudie gesagt worden ist! Genau das ist das Problem mit p-Werten und der Signifikanztestung: Wir haben unser Augenmerk darauf gerichtet, dass wir uns relativ sicher sind, dass unser Ergebnis nicht rein zufällig zustande gekommen ist, aber wir haben tatsächlich keine Vorstellung davon, ob das Ergebnis in irgendeiner Form nützlich oder klinisch relevant ist!
Ein „statistisch signifikantes Ergebnis“ weist daher nicht notwendigerweise auf ein wichtiges Ergebnis hin. Selbst ein trivial kleiner Effekt (ohne klinische Relevanz) kann aufgrund eines niedrigen p-Werts als „signifikant“ erachtet werden. Dies ist nicht unüblich in großen Studien oder Studien, in denen viele Hypothesen getestet werden (1/20 sind bei einem Signifikanzniveau von 0,05 rein zufällig signifikant).
Am anderen Ende des Spektrums ist es auch möglich, einen großen Punktschätzer für einen Effekt mit einem nicht signifikanten p-Wert (z.B. p = 0,10) zu erhalten. Dies kommt insbesondere bei kleinen Stichprobengrößen oder großen Studien vor, die kleine geschichtete (stratifizierte) Untergruppen untersuchen. Leider werden nicht signifikante p-Werte häufig mit „keine Wirkung“ verwechselt und werden potenziell bedeutsame Ergebnisse von zu kleinen („underpowered“) Studien einfach unberücksichtigt gelassen.
Wenn Ergebnisse nur mit p-Werten und/oder einer Aussage über die „statistische Signifikanz“ dargestellt werden, wird die wichtigste Information außer acht gelassen: die Punktschätzung. Mittlerweile denken Sie bestimmt, wie gut es wäre, eine alternative Methode für die Darstellung der Unsicherheit in Zusammenhang mit der tatsächlichen Größe und Richtung des Effekts zu haben? Glücklicherweise gibt es hier eine andere Option!
Konfidenzintervalle
Wenn wir die Unsicherheit bezüglich eines Ergebnisses kommunizieren möchten, ist es viel besser, ein Konfidenzintervall (KI; Konfidenz = Vertrauen) zu verwenden. Ein KI ist ein symmetrischer Wertebereich, in dem die Ergebniswerte wiederholter Experimente wahrscheinlich liegen. Unser Punktschätzer liegt in der Mitte dieses Bereichs. Die Breite des KIs stellt den Fehlerbereich dar und wird mittels der Verteilung der Daten, der Stichprobengröße und einer Stichprobenverteilung berechnet, die auch zur Berechnung von p-Werten verwendet werden. Der wichtige Unterschied hier ist, dass das KI einen besseren Bezugsrahmen als der p-Wert vermittelt, weil es die Richtung des Effekts zeigt (d. h. zum Beispiel ob eine Behandlung das Sterberisiko erhöht oder senkt), und weil es in denselben Einheiten wie die Punktschätzung angegeben wird, während es gleichzeitig auch die Unsicherheit der Schätzung angibt.
Das Konfidenzniveau (90%, 95%, 99%, usw.), das für das KI gewählt wird, ist völlig willkürlich. Üblicherweise wird in der medizinischen Forschung ein Niveau von 95% verwendet, da diese Zahl dem uns vertrauten Signifikanzniveau von 0,05 entspricht. Was bedeutet dieser Prozentsatz? Eine häufige Fehlinterpretation ist, dass der wahre Wert 95 der Fälle in diesem Bereich liegt. Stattdessen bedeutet ein 95% KI jedoch nur, dass, wenn dasselbe Experiment wieder und wieder mit verschiedenen Stichproben der interessierenden Grundgesamtheit durchgeführt wird, der wahre Wert in 95% dieser Studien innerhalb des KIs liegt (ausgehend von der Annahme, dass alle Voraussetzungen zur richtigen Berechnung des KIs erfüllt sind).
Die Breite des KI zeigt die Präzision des Punktschätzers an. Bspw. kann ein Punktschätzer eines Unterschieds von 5,5 ein 95 % KI von 3,5 bis 7,5 aufweisen (Breite von 4 Einheiten). Ein schmaleres Intervall, das einen Bereich von zwei Einheiten (z. B. 95 % KI, 4,5 bis 6,5) umfasst, ergibt eine präzisere Schätzung derselben Effektgröße als ein breiteres KI mit derselben Effektgröße (z. B. 95 % KI, 3,5 bis 7,5).
Nehmen wir beispielsweise an, eine bestimmte Behandlung reduziere das Sterberisiko im Vergleich zu einer Placebobehandlung mit einem Odds Ratio (Chancenverhältnis) von 0,5 und einem 95 % KI von 0,2 bis 0,8. Dies bedeutet, dass die Behandlung in unserer Stichprobe das Sterberisiko im Vergleich zu der Placebobehandlung um 50 % verringert hat, und dass die wahre Verringerung des Risikos irgendwo zwischen 20 % und 80 % liegt.
Es ist wichtig zu beachten, dass ein Konfidenzintervall keine einheitliche Wahrscheinlichkeitsverteilung darstellt, dass die Werte, die am dichtesten am Punktschätzer liegen, wahrscheinlich eher wahr sind als die Werte an den äußeren Enden des Intervalls.
Für diejenigen, die auf statistischen Hypothesentests bestehen – Konfidenzintervalle liefern Ihnen sogar auch diese Information. Wenn Ihr KI den Nullhypothesenwert nicht umfasst (z. B. für eine Risikodifferenz: Nullhypothese = 0, für ein relatives Risiko: Nullhypothese = 1), dann ist Ihr Ergebnis „statistisch signifikant“ (auf dem dem Signifikanzniveau des KIs entsprechenden Niveau). Wenn der Nullhypothesenwert innerhalb des Intervalls liegt, ist das Ergebnis „nicht statistisch signifikant“. Es ist jedoch wichtig sich daran zu erinnern, dass diese „zweigeteilte“ Denkweise aus den bereits erwähnten Gründen problematisch sein kann.
Eine großartige Ressource, die Sie sich anschauen können, ist eine von Steven Woloshin erstellte animierte Folienpräsentation, in der dargestellt ist, wie das Cochrane-Logo entwickelt wurde und was es aussagt.
Schlussfolgerung
Zusammengefasst lässt sich feststellen, dass p-Werte sehr irreführend sein können, insbesondere, wenn sie in Verbindung mit statistischen Hypothesentests ohne entsprechende Punktschätzer und Konfidenzintervalle dargestellt werden. Ihre Verwendung lenkt von möglicherweise interessanten Ergebnissen ab, die den Signifikanzschwellenwert aufgrund von Faktoren wie beispielsweise einer geringen Zahl von Ergebnisereignissen erreichen. Wenn Ergebnisse nicht veröffentlicht werden, weil sie „nicht statistisch signifikant“ sind (was nicht dasselbe wie das Ergebnis „keine Assoziation“ ist), führt dies zu schädlichem Publikations-Bias.
Anstatt sich auf wenig aussagekräftige p-Werte zu berufen, möchte ich Sie dazu ermuntern, Ergebnisse unter Verwendung von Punktschätzern und ihren aussagekräftigeren Konfidenzintervallen darzustellen und skeptisch zu sein bei Forschungsergebnissen und Behauptungen, die diese Informationen nicht vermitteln.
Text: Jessica Rohmann
Übersetzt von: Brita Fiess
Literaturhinweise im Originaltext
Anmerkung
Aus Gründen der besseren Lesbarkeit wird auf die gleichzeitige Verwendung männlicher und weiblicher Sprachformen verzichtet. Sämtliche Personenbezeichnungen gelten gleichermaßen für alle Geschlechter.