2.15 Statistische Vergleiche mit kleinen Stichproben oder wenigen Endpunktereignissen können irreführend sein

4.3
(3)

Dies ist der 27. Beitrag einer Blogserie zu „Schlüsselkonzepten zur besseren Bewertung von Aussagen zu Behandlungen“, die im Rahmen des Projektes Informed Health Choices erarbeitet wurden. Jeder der insgesamt 36 Blogbeiträge befasst sich mit einem Schlüsselkonzept, das dabei hilft, Aussagen zu Wirkungen von Behandlungen besser verstehen und einordnen zu können.

Immer mehr neue Medikamente, die besser als ihre Vorgänger sein sollen, sättigen unseren pharmazeutischen Markt. Deshalb ist es umso wichtiger, zu prüfen, ob die in Studien vorgenommenen Aussagen und Interpretationen valide sind.

Auch bewährte statistische Methoden zur Bewertung der Wirkung einer Intervention (etwa die eines Arzneimittels) können irreführend sein, wenn das Studiendesign nicht angemessen ist. Das kann zum Beispiel vorkommen, wenn für die Studie zu wenige Personen (also eine zu kleine Stichprobe) rekrutiert wurden, um eine ausreichende Anzahl von Endpunktereignissen zu liefern.

Endpunkte bezeichnen das Ziel einer klinischen Studie. Nehmen wir als hypothetisches Beispiel eine randomisierte kontrollierte Studie, die die Wirkung eines Arzneimittels auf das Risiko eines Herzinfarkts untersuchen soll. Das untersuchte Endpunktereignis wäre also sie Anzahl an Studienteilnehmern, die nach Einnahme des Arzneimittels einen Herzinfarkt erleiden.

Das Problem mit zu kleinen Probandengruppen liegt in einem Mangel an statistischer Trennschärfe oder Power. Diesen Begriff wollen wir hier genauer betrachten. Dazu aber zuerst einmal eine kurze Wiederholung von der Bedeutung statistischer Signifikanz, denn sie geht mit dem der Statistischen Power Hand in Hand:

Die statistische Signifikanz gibt an, ob sich die statistischen Ergebnisse einer Vergleichsstudie über die erhobenen Stichproben hinaus auf eine Grundgesamtheit generalisieren lassen. In anderen Worten, ob der Unterschied, der beim Vergleich zweier oder mehrerer Interventionen in einer Stichprobe von Studienteilnehmern festgestellt wurde, nicht nur auf Zufall beruht, sondern dass man auf Basis dieses Unterschiedes auch eine allgemeingültige Aussage treffen kann.

Signifikanz wird mithilfe des p-Werts – der Irrtumswahrscheinlichkeit – ausgedrückt. Für Werte von 0,05 (5%) und darunter geht man davon aus, dass der beobachtete Unterschied einen tatsächlichen Unterschied zwischen den beiden Studienpopulationen repräsentiert; man spricht von einem „statistisch signifikanten“ Unterschied. Werte über 0,05 dagegen legen nahe, dass der Unterschied sehr wohl auch auf reinem Zufall beruhen könnte – also je größer p-Wert, desto wahrscheinlicher handelt es sich um ein Zufallsergebnis. Statistiker sprechen in diesem Fall vom Risiko eines Fehlers der 1. Art. Eine Grundsatzerklärung der American Statistical Association zu p-Werten und statistischer Signifikanz kann man hier auf Englisch lesen; zu einem erweiterten Verständnis auf Deutsch hilft Wikipedia)

Die statistische Trennschärfe oder Power einer Studie dagegen ist die Wahrscheinlichkeit, dass ein real existierender Effekt auch in der Studie entdeckt wird. Je größer die statistische Power einer Studie, desto geringer ist also die Gefahr, dass sie eine (allgemeine) Wirkung nicht erkennt, obwohl diese in Wirklichkeit vorhanden ist. Statistiker sprechen hier vom Risiko eines Fehlers 2. Art, Mediziner kennen diesen Fehler beispielsweise als falsch-negatives Ergebnis eines diagnostischen Tests.

Wir haben instinktiv mehr Vertrauen in Studien mit großen Stichprobengrößen. Dafür gibt es einen guten Grund: Große Studienpopulationen minimieren den Einfluss von zufälligen Schwankungen in der Zusammensetzung der Vergleichsgruppen und erhöhen dadurch die statistische Power. Studien auf Basis kleiner Populationen liefern oft keine ausreichende Anzahl an Endpunktergebnissen . Dies schwächt die Aussagekraft der Evidenz für oder gegen das Vorhandensein eines Effekts, weil der reine Zufall größeren Einfluss auf die Ergebnisse bekommt.

Man stelle sich beispielweise eine randomisierte kontrollierte Studie (RCT) zur Wirkung eines Herzmittels mit zehn Patienten in einem Studienarm (oder in einer Vergleichsgruppe) und zehn Patienten im anderen Vergleichsarm vor, wobei der primäre Endpunkt die Anzahl von Herzinfarkten in jeder Gruppe ist. Am Ende der Studie gibt es in der Placebogruppe sechs Infarkte und in der Interventionsgruppe drei. Rein rechnerisch scheint die Intervention das relative Risiko für einen Herzinfarkt um 50% reduziert zu haben. Aber kann man sich auf dieses Ergebnis wirklich verlassen? Und wenn nicht: Weshalb?

Man muss nicht Statistiker sein um zu erkennen, dass die Anzahl der Endpunktereignisse womöglich zu klein ist, um sicher sagen zu können, dass die Differenz einen tatsächlichen Unterschied zwischen den Behandlungen und nicht die Auswirkungen des Zufalls widerspiegelt. Selbst wenn jeder Studienarm 1.000 Teilnehmer hätte, die Gesamtzahl an Herzinfarkten in jeder Gruppe jedoch dieselbe bliebe, wäre die Anzahl an Endpunktereignissen immer noch zu gering, um daraus zu folgern, dass die Wirkung der Behandlung wirklich unterschiedlich ist. Genauer gesagt, sechs von 1.000 im Vergleich zu drei von 1.000 ist immer noch zu wenig, um den Zufall mit ausreichender Verlässlichkeit auszuschließen. Die statistische Power hängt also sowohl von der Stichprobengröße, als auch von der Häufigkeit von Endpunktereignissen ab.

Eine Zusammenfassung der wichtigsten Punkte:

  • Geringe Stichprobengrößen tragen normalerweise zu einer geringen statistischen Trennschärfe bei, was wiederum sowohl die Wahrscheinlichkeit für einen Fehler 2. Art (Nichterkennen einer Wirkung der Intervention), als auch für einen Fehler 1. Art (also das Erkennen einer Wirkung, die in Wirklichkeit nicht existiert) erhöht.
  • Bei Studien mit einer geringen Anzahl an Endpunktereignissen ist die Wahrscheinlichkeit größer, dass ihre Ergebnisse rein auf Zufall basieren, selbst wenn die Studien sehr viele Teilnehmer beinhalten.
  • Eine kleine Anzahl an Endpunktereignissen kann die vermeintliche Wirkung von Interventionen aufbauschen (siehe die Halbierung von Herzinfarkten im Beispiel).

Selbstverständlich ist nichts für immer und ewig in Stein gemeißelt, besonders in der Medizin. Studien mit sehr vielen Teilnehmern mögen zwar wünschenswert sein, sind aber oft aus praktischen Gründen kaum machbar. In manchen Situationen wiederum können auch kleine Studien eine ausreichende statistische Power bieten.

Text: Lewis Saunders

Übersetzt von: Brita Fiess

Zum Originaltext

Anmerkungen:

Dieser Blog-Artikel soll in erster Linie für das Problem kleiner Stichproben und seltener Endpunktereignisse sensibilisieren und zum Nachdenken anregen. Ziel des Beitrags ist es also, zum Nachdenken anzuregen und nicht, präzise Antworten zu liefern.

Aus Gründen der besseren Lesbarkeit wird auf die gleichzeitige Verwendung männlicher und weiblicher Sprachformen verzichtet. Sämtliche Personenbezeichnungen gelten gleichermaßen für alle Geschlechter.

Literaturhinweise:

  • Haas, J. P. Sample size and power. American journal of infection control. 2012,Oct;40(8):766-767
  • Dechartres A, Trinquart L, Boutron I, Ravaud P. Influence of trial sample size on treatment effect estimates: meta-epidemiological study. BMJ. 2013 Apr;346:f2304

Wie gefällt Ihnen dieser Artikel?

Klicken Sie auf einen Stern, um den Artikel zu bewerten.

Durchschnittsbewertung: 4.3 / 5. Anzahl an Bewertungen: 3

Bisher keine Bewertungen. Seien Sie die/der Erste!

Wir freuen uns über Rückmeldung von Ihnen!

Schreiben Sie uns, was wir in Zukunft verbessern oder beibehalten sollten?