Dies ist der 14. Beitrag einer Blogserie zu einer Zusammenstellung von „Schlüsselkonzepten zur besseren Bewertung von Aussagen zu Behandlungen“, die im Rahmen des Informed Health Choices (ICH) Projektes erarbeitet wurde. Jeder der insgesamt 36 Blogbeiträge befasst sich mit einem der Schlüsselkonzepte, die als wichtig dafür erachtet werden, Aussagen zu Wirkungen von Behandlungen besser verstehen und einordnen zu können.
Die Notwendigkeit von fairen, zuverlässigen Vergleichen zur Bewertung der Wirkung einer Behandlung haben wir schon in einem früheren Blog-Artikel besprochen. Aber wie können sämtliche Vergleiche gleichermaßen fair sein? In diesem-Artikel werden wir die Bedeutung des Vergleichens von „Gleiches mit Gleichem“ erklären, Strategien, die darauf abzielen, die Unterschiede zwischen Gruppen zu minimieren, erläutern, und darauf eingehen, wie man die Qualität von Vergleichen in Forschungsberichten kritisch liest und bewertet.
Nehmen wir einmal an, wir möchten eine Studie durchführen, um zu untersuchen, ob eine neue chirurgische Behandlung die Gesamt-Überlebensrate von Patienten mit einem Tumor (n = 400) verbessert.
Um zu ermitteln, ob unsere neue Behandlung besser als die derzeitige Standardbehandlung (zum Beispiel eine Chemotherapie) ist, müssen wir zwei Studiengruppen bilden, indem wir jeweils 200 Patienten der Gruppe A (Behandlungsarm A) und 200 der Gruppe B (Vergleichsarm B) zuteilen. Nach fünf Jahren vergleichen wir dann die Gesamt-Überlebensrate. Wenn die neue Operation wirksamer als die Standard-Chemotherapie ist, sollten wir in Gruppe A weniger Todesfälle feststellen.
Für uns Wissenschaftler* ist alles, was wir am Ende der Studie tatsächlich „sehen“, das Studienergebnis (dass es zum Beispiel mehr Überlebende in Gruppe A als in Gruppe B gab). Wenn jedoch Gruppe A tatsächlich besser als Gruppe B abschneidet, so gibt es hierfür tatsächlich drei mögliche Szenarien:
(1) unsere chirurgische Behandlung wirkt besser (d. h. sie hat eine stärkere positive Wirkung auf das Überleben als die Standard-Chemotherapie),
(2) der Unterschied in der Prognose, den man beobachten kann, ist nicht in der Überlegenheit der Behandlung begründet, sondern in Unterschieden zwischen den Personen in den Gruppen, die bereits vorher bestanden haben, oder (3) die Unterschiede können zufällig zustande gekommen sein.
Wie entscheiden wir nun, welche 200 Patienten einer jeweiligen Gruppe zugewiesen werden?
Abstrakt gedacht möchten wir, dass die Personen in Gruppe B genau dieselben Eigenschaften haben wie die Personen in Gruppe A, als wären sie gleichzeitig auch in Gruppe B gewesen.
Dieses unrealistische Szenario wird in der Epidemiologie als ‘kontrafaktisches Ideal‘‚ bezeichnet (1). Um dieses in der Realität zumindest näherungsweise zu erreichen, müssen wir sicherstellen, dass sich Gruppe B und Gruppe A durchschnittlich in allen Faktoren, die einen Einfluss auf das Risiko für den Endpunkt (im vorliegenden Fall Tod) haben, ähnlich sind. Einige dieser Faktoren kennen wir vielleicht bereits und haben sie erhoben (Alter, Geschlecht, Ethnizität usw.), andere wiederum sind unbekannt/nicht erhoben (genetische Prädisposition, Stress, Ernährung usw.).
Indem wir sicherstellen, dass beide Gruppe ähnliche Prognosen haben („Gleiches mit Gleichem“ vergleichen), können wir uns sicherer sein, dass sämtliche Unterschiede, die wir feststellen, auf die Behandlungen zurückzuführen sind, und nicht auf Unterschiede zwischen den Teilnehmern.
Ein weiterer bedeutender Faktor für das Vergleichen von „Gleichem mit Gleichem“ ist die parallele (nebeneinander laufende) Testung der Gruppen.
Zurück zu unserem Beispiel: wenn wir unsere neue chirurgische Behandlung im Vergleich zu einem Placebo getestet hätten, und dann versucht hätten, seine Wirkung mit der Wirkung der Chemotherapiebehandlung zu vergleichen, die in einer anderen Studie bereits Jahre zuvor getestet wurde (eine so genannte historische Vergleichsstudie), würden wir durch die Ergebnisse vermutlich fehlgeleitet.
Dies ist insbesondere dann problematisch, wenn der Unterschied zwischen den Wirkungen der beiden Behandlungen nicht sehr groß ist (2). (Es ist jedoch zu beachten, dass eine unzureichende Probandenzahl unabhängig von Studiendesign bedeutsam ist).
Selbst wenn der Aufbau der Studien und die Gruppen gleich erscheinen, werden Unterschiede in äußeren Faktoren zwischen den Studien, wie die Qualität der Pflege, modernere medizinische Entwicklungen bei der Versorgung von Komorbiditäten sowie Unterschiede bei unbekannten, nicht erhobenen Faktoren, wahrscheinlich zu Unterschieden im Sterblichkeitsrisiko der Gruppen führen. Daher wären sämtliche Vergleiche nicht verlässlich. Das Fazit? Wenn Gruppen nicht zur selben Zeit unter denselben Bedingungen getestet werden, ist es sehr wahrscheinlich, dass sie sich unterscheiden.
Welche Methode können wir also anwenden, um Studienteilnehmer angemessen auf Vergleichsgruppen zu verteilen und einen unverzerrten Vergleich gewährleisten zu können?
Eine Randomisierung (zufällige Zuteilung) gewährleistet, dass beide Gruppen vor Beginn der Behandlung die gleiche Prognose bezüglich des Endpunkts aufweisen, und dass sämtliche Unterschiede zufällig sind. Dies ist die beste Möglichkeit, dem oben beschriebenen kontrafaktischen Ideal so nahe wie möglich zu kommen.
Studienteilnehmer werden den Gruppen am häufigsten durch computergenerierte Zufallszahlen zugeteilt. Weitere Methoden sind vorab festgelegte Behandlungsfolgen und verschlossene Umschläge mit per Zufallsverfahren ermittelten Gruppenzuteilungen. Auch hier ist es sehr wichtig, dass die zufällige Zuteilung vor Beginn der Studie (prospektive Zuteilung) erfolgt, um eine parallele Testung zu gewährleisten. Es ist auch wichtig, dass der Zuteilungsplan geheim bleibt.
Trotz ihrer Vorteile gibt es zwei wesentliche Nachteile der zufälligen Gruppenzuteilung.
- Eine Randomisierung kann fehlschlagen, insbesondere bei sehr kleinen Studiengruppen, da die Gruppen rein zufällig aus dem Gleichgewicht geraten können (3). Dabei ist es wichtig zu verstehen, dass dies nicht ein Problem der Randomisierung an sich ist, sondern ein Problem der unzureichenden Anzahl an Studienteilnehmern.
- Obwohl sie zur Untersuchung von Behandlungen ideal ist, ist die randomisierte kontrollierte Studie für einige wissenschaftliche Fragen aufgrund ethischer Bedenken oder praktischer Überlegungen nicht geeignet. Bspw. wäre es unethisch, Personen per Zufallsverfahren einer „Rauchergruppe“ und eine „Nichtrauchergruppe“ zuzuteilen, um festzustellen, ob Rauchen Krebs erzeugt.
Denken Sie immer daran: Jeder kann behaupten, dass seine Studie einen fairen Vergleich zieht, aber leider ist eine wirklich unverzerrte, zufällige Gruppenzuteilung nicht in allen wissenschaftlichen Untersuchungen gewährleistet.
Stellen Sie sich vor, wir hätten unsere hypothetischen Studienteilnehmer auf Basis der Nummer ihrer Krankenhauszimmer bestimmten Gruppen zugeteilt – die Patienten in Zimmern mit niedrigeren Nummern (1-10) der Gruppe A, und die Patienten in Zimmern mit höheren Nummern (11-20) in Gruppe B. Dies wäre keine zufällige Zuteilung. Verstehen Sie warum?
- Wenn schwerer erkrankte Hochrisikopatienten normalerweise in Zimmern mit niedrigeren Nummern (näher dem Stationszimmer) untergebracht sind, werden mehr schwerere Fälle der Gruppe A zugeteilt, die das Risiko für den Endpunkt (Tod) in dieser Gruppe überproportional hochtreiben.
- Wenn ein Arzt in das Zuteilungsschema eingeweiht ist und der Ansicht ist, die Operation ist wirksamer, könnte er seine am schwersten erkrankten Patienten in eines der Zimmer mit einer niedrigeren Nummer anstelle eines Zimmers mit einer zufällig zugeteilten Nummer verlegen lassen und so das Risiko in Gruppe A wiederum erhöhen.
Diese Form der Zuteilung von Studienteilnehmern könnte zu Unterschieden zwischen den Gruppen bei der Prognose für den Endpunkt führen. Wenn die Gruppen sich bereits bei Studienbeginn in ihrem Grundrisiko unterscheiden, kann die Wirkung der Behandlung in Bezug auf die Endpunkte nicht zuverlässig ermittelt werden.
Wenn Sie eine Studie mit einem „randomisierten“ Design lesen, fragen Sie sich stets, ob die Patienten den Gruppen wirklich willkürlich zugeordnet wurden?
Erkennen Sie vielleicht irgendwelche Muster, die Sie dazu bringen, zu denken, dass bestimmte Patiententypen wahrscheinlich eher einer bestimmten Gruppe zugewiesen wurden? Betrachten Sie dann die Merkmale der Teilnehmer zu Beginn der Studie (normalerweise finden diese sich in Tabelle 1 des Artikels). Wenn Sie nicht überzeugt sind, dass die Gruppen vergleichbar sind, sind die Ergebnisse wahrscheinlich nicht stichhaltig, unabhängig davon, wie hoch die Versuchung ist ihnen Glauben zu schenken.
Text: Jessica Rohmann
Übersetzt von: Brita Fiess
Die Autorin dankt Maartje Liefting und Bob Siegerink für ihr hilfreiches Feedbank zu einer früheren Version dieses Beitrags.
- Originaltext
- Literaturhinweise
- Klicken Sie hier für weitere Lernmaterialien, die erläutern, weshalb Vergleichsgruppen gleich sein müssen.
*Aus Gründen der besseren Lesbarkeit wird auf die gleichzeitige Verwendung männlicher und weiblicher Sprachformen verzichtet. Sämtliche Personenbezeichnungen gelten gleichermaßen für alle Geschlechter.