beitragsbild Keyconcept 2.14

2.14 Wenn der „Mittelwert“ kein Mittel zur Erklärung der Ergebnisse ist

Um die Ergebnisse klinischer Studien zu kommunizieren, nutzt man oft Mittelwerte. Diese können jedoch leicht in die Irre führen, wie diese Folge unserer „Schlüsselkonzepte“ zeigt.

Dies ist der 26. Beitrag einer Blogserie zu „Schlüsselkonzepten zur besseren Bewertung von Aussagen zu Behandlungen“, die im Rahmen des Projektes Informed Health Choices erarbeitet wurden. Jeder der insgesamt 36 Blogbeiträge befasst sich mit einem Schlüsselkonzept, das dabei hilft, Aussagen zu Wirkungen von Behandlungen besser verstehen und einordnen zu können.

1. Der Mittelwert sagt nichts über die Verteilung der Einzelergebnisse aus

Betrachten wir als Beispiel die Durchschnittsgröße von Schülern in drei Schulklassen. Diese ist in den Klassen A, B und C in der folgenden Abbildung zwar gleich, doch die Verteilung der Größen der einzelnen Schüler ist jeweils sehr unterschiedlich.

Grafik Klassen

Dies gilt es auch für Durchschnittswerte von Behandlungsergebnissen zu bedenken. Es ist sehr unwahrscheinlich, dass eine Behandlung bei sämtlichen Patienten annähernd gleich wirkt. Wie stark und in welchen Mustern die Wirkung zwischen einzelnen Patienten einer Behandlungsgruppe variiert, kann ein wichtiges Ergebnis einer klinischen Studie sein, das sich am Mittelwert allein nicht ablesen lässt.

2. Die Verteilung der Ergebnisse kann ungleichmäßig sein

Im oben stehenden Beispiel der Durchschnittsgröße der Schüler von Schulklasse C sind die Ergebnisse in zwei in sich homogene Untergruppen verteilt. Die eine liegt deutlich oberhalb, die andere unterhalb des Durchschnittswertes (mit anderen Worten, jeweils drei der sechs Schüler sind gleich groß). Auch die Größenverteilung in den Klassen A und B ist nicht besonders realistisch. In real existierenden Schulklassen gibt es zum Beispiel oft einzelne Schüler, die erheblich größer oder kleiner als die anderen sind. Solche „Ausreißer“ können sich stark auf die Durchschnittsgröße der gesamten Klasse auswirken.

In einer klinischen Studie könnte eine solche Situation etwa so aussehen: Patienten werden gebeten, ihre Schmerzen nach einer Behandlung auf einer Skala von 0-100 einzustufen. Die Ergebnisse fallen folgendermaßen aus:

Behandlung A: Bei 99 Patienten haben sich die Schmerzen um 10 Punkte gebessert; bei 1 Person besserten sich die Schmerzen um 50 Punkte.

Behandlung B: Bei 99 Patienten haben sich die Schmerzen ebenfalls um 10 Punkte gebessert; bei 1 Person verschlimmerten sie sich dagegen um 50 Punkte.

Im Durchschnitt beträgt die Verbesserung in Gruppe A 10,4 Punkte und in Gruppe B 9,4 Punkte. Auf Basis dieser Durchschnittswerte schneidet die Behandlung bei Gruppe A besser ab, dabei waren in Wirklichkeit für 99 Prozent der Personen beide Behandlungen gleichermaßen wirksam.

Ebenso können zwei Gruppen das gleiche Durchschnittsergebnis aufweisen, obwohl es den meisten Teilnehmern mit Behandlung A besser geht, es aber nur einem Patienten mit Behandlung B richtig gut geht, wie im folgenden Beispiel gezeigt wird:

In beiden Fällen sind die Mittelwerte irreführend, da einzelne Personen mit extremen Ergebnissen – sogenannte Ausreißer – den Durchschnitt nach oben beziehungsweise nach unten verschieben. Dieser ist daher für die Population insgesamt nicht repräsentativ. Im Umgang mit solchen Ausreißeren ist es sehr wichtig zu überprüfen, ob es sich dabei um einen validen Messwert oder um einen Messfehler handelt. Allerdings darf man solche Ausreißer in Studien nicht einfach nach Gutdünken zu Messfehlern erklären und aus der statistischen Auswertung herauswerfen. Vielmehr sollte man schon von vornherein einen Grenzwert definieren, ab dem Messwerte als vermeintlich fehlerhaft verworfen werden. Eine gängige (wenn auch letztlich willkürliche) Definition wäre beispielsweise, Einzelwerte, die sich mehr als 2,5 Standardabweichungen vom Mittelwert, als Ausreißer zu behandeln. Der Umgang mit Ausreißern ist allerdings eine eigene, ziemlich komplexe Disziplin der Statistik.

3. Der Mittelwert zeigt nicht, wie viele Personen eine klinisch relevante Verbesserung erfahren haben

Der Durchschnittswert reicht oft nicht aus, um eine Aussage darüber machen zu können, in wie weit ein Patient eine wirklich relevante Verbesserung erfährt. Diese Veränderung wird auch als minimaler wichtiger Unterschied bezeichnet.

Wenn man im folgenden Beispiel den Durchschnitt betrachtet, scheint es den Teilnehmern von Gruppe C (durchschnittliche Verbesserung = 5) besser als denen von Gruppe D (durchschnittliche Verbesserung = 4) zu gehen.

Wenn jedoch eine Veränderung um mindestens 7 Punkte erforderlich ist, damit ein Patient diese überhaupt bemerkt, hat kein Patient in Gruppe C eine merkliche Veränderung erfahren, jedoch 2 Personen in Gruppe D. Im Hinblick auf den Anteil von Patienten, die eine relevante Verbesserung erfahren haben, schneidet Gruppe D also besser als Gruppe C ab.

Der Durchschnitt ist in diesem Beispiel irreführend, da er nicht wiederspiegelt, welche Patienten eine relevante Veränderung erfahren haben. Wenn der Durchschnitt in einer Gruppe höher ist, bedeutet das also nicht notwendigerweise, dass die Behandlung bei dieser Gruppe wirksamer war.

Zusammenfassung:

Am Mittelwert als Kennwert für die zentrale Tendenz einer Verteilung führt in der Statistik kaum ein Weg vorbei. Doch es gilt zu bedenken, dass Mittelwerte auf mehrere Weisen irreführend sein können. Ist die Verteilung der Ergebnisse ungleichmäßig, kann der Durchschnittswert durch extreme „Ausreißer“ beeinflusst werden. Das kann dazu führen, dass eine Behandlung mehr oder weniger wirksam erscheint, als sie es im Gros der Fälle tatsächlich ist. Darüber hinaus bietet uns der Durchschnitt keine Informationen dahingehend, wie viele Patienten eine klinisch bedeutende Verbesserung erfahren haben.

Was bedeutet das in der Praxis? Wenn Sie zum Beispiel Forschungsberichte lesen, sollten Sie nicht allein auf die Mittelwerte zweier Behandlungsgruppen vertrauen, um zu entscheiden, welcher Gruppe es besser geht. Suchen Sie nach weiteren Informationen dazu, wie die Ergebnisse verteilt sind und was eine relevante Veränderung in der Messskala darstellt.

Anmerkung: Aus Gründen der besseren Lesbarkeit wird auf die gleichzeitige Verwendung männlicher und weiblicher Sprachformen verzichtet. Sämtliche Personenbezeichnungen gelten gleichermaßen für alle Geschlechter.

Bild IHC Key Concept 2.13

2.13 Angaben zu relativen Risiken können irreführend sein

Wir leben heute im Zeitalter von „Big Data“, mit Zugriff auf so viel mehr Informationen als alle unsere Vorfahren es jemals hatten. Mit einer kurzen Google-Suche kann man zu fast allem eine Statistik finden – aber kann man ihr auch vertrauen? Wir müssen sehr umsichtig sein, wenn wir die vielen Daten, mit denen wir konfrontiert werden, auch richtig interpretieren wollen.

Dies ist der 25. Beitrag einer Blogserie zu „Schlüsselkonzepten zur besseren Bewertung von Aussagen zu Behandlungen“, die im Rahmen des Projektes Informed Health Choices erarbeitet wurden. Jeder der insgesamt 36 Blogbeiträge befasst sich mit einem Schlüsselkonzept, die wichtig dafür sind, Aussagen zu Wirkungen von Behandlungen besser verstehen und einordnen zu können. 

Statistische Behauptungen in den Medien

Beim Zeitungslesen könnte man den Eindruck bekommen, dass so ziemlich alles irgendwie krebserregend ist. Die Daily Mail, ein britisches Boulevardblatt, berichtet beispielsweise, dass Dinge wie Deodorants, Suppen, Sonnencreme und sogar Oralsex das Risiko für bestimmte Krebsarten erhöhen können[1]. Viele dieser Behauptungen mögen durchaus auf guter wissenschaftlicher Evidenz über statistische Risikofaktoren beruhen. Doch bevor wir voreilige Schlüsse ziehen und Anderen entsprechende Handlungsempfehlungen geben, müssen wir uns hier die Frage stellen, bis zu welchem Grad solche Aussagen verlässlich sind. Es ist eminent wichtig, die Fakten zu prüfen, und nicht einfach alles, was unsere Facebook-Freunde teilen, als der Weisheit letzter Schluss zu betrachten. Ein wichtiger Vorbehalt gegenüber Schlagzeilen nach dem Schema „X erhöht das Risiko von Y um Z Prozent“ lautet, dass eine statistische Assoziation von X und Y noch lange keinen kausalen Zusammenhang bedeutet. Darüber haben wir bereits in einem früheren Schlüsselkonzept ausführlich gesprochen. Kaum weniger wichtig ist es, Angaben zu Risiken auf ihre Aussagekraft zu prüfen.

Wenn man beispielsweise liest, dass gemäß einer Studie „bei Frauen, die zur Körperhygiene jeden Tag Talkum anwenden, eine um 40% höhere Wahrscheinlichkeit besteht, Eierstockkrebs zu entwickeln“ [2], ist man vielleicht derart verängstigt, dass man dieses Produkt nie wieder anrührt. Aber: Diese Statistik für sich allein genommen hat wenig Aussagekraft. Denn wir wissen nicht:

  • Wie viele Personen Talkum in der Studie anwendeten.
  • Wie viele Personen insgesamt an der Studie teilnahmen.
  • Wie viele Frauen in der Untersuchungs- bzw. Kontrollgruppe Eierstockkrebs hatten (Anwenderinnen von Talkum im Vergleich zu Frauen, die es nicht anwendeten).
  • Diese Statistik sagt nichts über viele andere Faktoren aus, die hier eine Rolle spielen könnten. In diesem Beispiel ergab die Studie lediglich, dass nur bei postmenopausalen Frauen ein erhöhtes Risiko bestand, wenn Talkum direkt im Schambereich angewendet wurde. Auch wurde berichtet, dass in der „Talkum-Gruppe“ mehr übergewichtigere Personen waren als in der „Nicht-Talkum-Gruppe“. Dies ist in diesem Fall von besonderer Bedeutung, da Übergewicht ein bekannter Risikofaktor für Eierstockkrebs ist. [3]

Das Problem ist, dass diese Statistik (eine um 40% höhere Wahrscheinlichkeit) ein relatives Risikos [AP1] darstellt. Ein relatives Risiko ist eine Art der Berichterstattung eines Risikos in Prozentsätzen, aber nur in Relation zur Vergleichsgruppe und nicht unter Berücksichtigung der Gesamtzahl der betroffenen Personen oder Krankheitsfälle. Diesen Punkt betont Dr. Jodie Moffat von Cancer Research UK: „Es ist wichtig, darauf hinzuweisen, dass nur sehr wenige Frauen, die Talkum anwenden, jemals Eierstockkrebs entwickeln werden. [2]

Relatives oder absolutes Risiko?

Es gibt viele verschiedene Arten, Risiken zu bestimmen. Das relative Risiko, manchmal auch als Risiko-Verhältnis bezeichnet, stellt den Unterschied zwischen zwei Gruppen einfach dar. Es kann jedoch irreführend sein, da es nicht die ursprüngliche Anzahl der Fälle wiedergibt. Nehmen wir als Beispiel folgende Zahlen einer fiktiven Studie:

  • 100 Teilnehmer wurden mit einem Arzneimittel behandelt; von diesen litt ein Teilnehmer unter einen Herzinfarkt = 1% Risiko für einen Herzinfarkt
  • 100 Teilnehmer wurden mit einem Arzneimittel NICHT behandelt; von diesen erlitten zwei Teilnehmer einen Herzinfarkt = 2% Risiko für einen Herzinfarkt
Tabelle mit Zahlen aus Text

Man könnte vielleicht denken, dass die Differenz von einer Person von Hundert nicht allzu groß ist. Das relative Risiko wird jedoch ermittelt, indem man die 1 % und die 2 % vergleicht. Die resultierende Aussage lautet, dass „Personen, die dieses Arzneimittel nicht einnehmen, ein zweifach höheres Risiko für einen Herzinfarkt haben“, oder umgekehrt, dass „dieses Arzneimittel das Risiko für einen Herzinfarkt um 50% senkt“. Dies kann der Wahrheit entsprechen und in anderen Studien auch bestätigt werden. Dennoch kann es sein, dass dieses Arzneimittel nicht so wirksam ist, wie es scheint; Der Unterschied könnte lediglich zufällig sein. Aus diesem Grund muss der Umstand, dass zwischen den Gruppen nur eine Gesamtdifferenz von 1% bestand, ebenfalls genannt werden – wir bezeichnen dies als die absolute Risikodifferenz.

Number needed to treat

Ein weiteres nützliches Maß, das in der Medizin eingesetzt wird, um Risiken besser einodnen zu können, ist die „Number needed to treat“ (NNT) – also die Anzahl der Personen, die theoretisch behandelt werden müssen, damit eine von ihnen einen Nutzen davon hat.
Im obigen Beispiel betrüge die NNT 100, da ja bereits festgestellt wurde, dass das Arzneimittel an 100 Personen verabreicht werden muss, damit bei einer Person ein Herzinfarkt verhindert wird. Arzneimittel können Nebenwirkungen haben oder sehr kostspielig sein. Wenn also nicht viele Personen einen Nutzen davon haben, ist der Aufwand es zu verabreichen, vielleicht zu hoch.

Weitere Überlegungen

In die Überlegungen muss auch einfließen, wie hoch überhaupt die Wahrscheinlichkeit ist, dass ein bestimmtes Ergebnis eintritt. Man stelle sich beispielsweise ein Arzneimittel vor, dass die Wahrscheinlichkeit dafür, dass man eine bestimmte Krankheit bekommt, um 50% senkt. Das Arzneimittel verursacht jedoch Nebenwirkungen, und das Grundrisiko, die Krankheit überhaupt zu bekommen, liegt bei 2 von 100. In diesem Fall könnte eine Behandlung sinnvoll sein, solange der Nutzen in einem vernünftigen Verhältnis zu den Nebenwirkungen steht. Wenn jedoch das Risiko, die Krankheit überhaupt zu bekommen, nur bei 2 von 10.000 liegt, ist die präventive Behandlung wahrscheinlich nicht sinnvoll, auch wenn die relative Wirkung des Arzneimittels dieselbe ist.

Das relative Risiko kann zur Darstellung der Risikozunahme oder -reduktion von Krankheits- oder Risikofaktoren dienen (wie im Beispiel mit dem Talkum oben). Bei größeren Probandengruppen ist das relative Risiko relativ zuverlässig. Bei der Analyse von Studien mit kleineren Stichprobengrößen oder Studien, die seltenere Krankheiten untersuchen, kann es jedoch leicht einen falschen Eindruck vermitteln. Daher ist es wichtig, alles, was man in Zeitungen oder auch in wissenschaftlichen Fachzeitschriften liest, mit Vorsicht zu genießen, solange man nicht sämtliche Fakten kennt. Es muss sich nicht unbedingt um „Fake News“ handeln, kann aber dennoch irreführend sein.

Das nächste Mal, wenn Sie es mit einem relativen Risiko zu tun haben, fragen Sie sich auch, was das absolute Risiko ist.

Text: Gareth Grant

Übersetzt von:

Redaktion: Cochrane Deutschland

Zum Originaltext

Zu den Quellenangaben

Anmerkung: Aus Gründen der besseren Lesbarkeit wird auf die gleichzeitige Verwendung männlicher und weiblicher Sprachformen verzichtet. Sämtliche Personenbezeichnungen gelten gleichermaßen für alle Geschlechter.

Subgruppenanalysen können irreführend sein

Die Einnahme von Aspirin als Blutverdünner gehört zur Standardbehandlung nach einem Herzinfarkt und ist wissenschaftlich gut belegt[2]. In einer recht bekannten Studie, die die Einnahme von Aspirin zur Behandlung von Herzinfarkten untersuchte, zeigte sich bei Teilnehmern mit den Sternzeichen Zwillinge und Waage allerdings kein statistisch signifikanter Nutzen des Medikaments[1]. Wie kann das sein?

Ein solcher vermeintlicher Widerspruch kann entstehen, wenn man kleine Gruppen von Studienteilnehmern innerhalb einer Studie isoliert betrachtet. Insgesamt wurde die Wirksamkeit von Aspirin durchaus nachgewiesen.

Die Untersuchung einer Untergruppe von Teilnehmern mit bestimmten Eigenschaften bezeichnet man als „Subgruppenanalyse“. Eines der Probleme von Subgruppenanalysen ist die erhöhte Wahrscheinlichkeit von statistisch signifikanten, aber in Wirklichkeit falschpositiven Ergebnissen. Denn je mehr Charakteristika von Subgruppen analysiert werden (z.B. Geschlecht, Alter, Augenfarbe, Sternzeichen), desto wahrscheinlicher findet sich auf irgendeiner der Charakteristika zufällig ein statistisch signifikanter Effekt [3]. Dies soll nachfolgend anhand eines fiktiven Beispiels illustriert werden:

Die Marmeladenbrot-Studie

Angenommen, die Autoren einer Studie möchten untersuchen, ob Marmeladenbrote die Lebenszufriedenheit verbessert. Dafür nehmen sie 1000 Teilnehmer in diese Studie auf; 500 davon essen eine Woche lang zu jeder Mittagsmahlzeit Marmeladenbrote, während die anderen 500 ihr übliches Mittagessen zu sich nehmen. Endlich ist es soweit, die Studie wird ausgewertet, die Ergebnisse liegen vor: Zur großen Enttäuschung der Autoren zeigt sich keine statistisch signifikante Verbesserung der Lebenszufriedenheit nach dem Verzehr vieler Marmeladenbrote.

Daraufhin machen die Wissenschaftler eine Reihe von Subgruppenanalysen, um herauszufinden, ob die Wirkung der Marmeladenbrote bei unterschiedlichen Teilnehmern unterschiedlich ausfällt.

Zuerst untersuchen sie mögliche Unterschiede bei Männern und Frauen, aber offenbar stellte sich in keiner dieser Subgruppen irgendein statistisch signifikanter Nutzen ein. Dann betrachten sie getrennt Teilnehmer über und unter einer Körpergröße von 1,50 Meter, aber auch das war offenbar nicht mit einem statistisch signifikanten Nutzen verbunden. Anschließend werden Subgruppenanalysen nach Gewicht, Frisur, Beruf, Familienstand, Alter, Lungenfunktion und Cholesterinspiegel durchgeführt; alle ohne Erfolg.

Doch dann ein Treffer: Es stellt sich heraus, dass bei Teilnehmern mit grünen Augen nach täglichem Genuss von Marmeladenbroten eine statistisch signifikante Verbesserung der Lebenszufriedenheit eintrat. In Wirklichkeit hat die Augenfarbe natürlich keinerlei Einfluss auf die Wirksamkeit von Marmeladenbroten zur Verbesserung der Lebenszufriedenheit. Doch rein zufällig wies die Subgruppe von grünäugigen Teilnehmern, die Marmeladenbrote verzehrte, eine höhere Lebenszufriedenheit auf. Je öfter man schaut, desto größer wird das Risiko solcher falsch-positiven Ergebnisse (im Prinzip wie: je öfter ich würfle, desto größer ist die Wahrscheinlichkeit, dass zufällig zwei Mal nacheinander eine 6 gewürfelt wird und damit “mehr Glück” als meine Mitspieler habe).

Falschnegative Ergebnisse

Subgruppenanalysen können auch zu falschnegativen Ergebnissen führen, d. h. eine tatsächlich vorhandene Wirkung nicht erkennen. Neben dem gleichen Sachverhalt wie eben bei den Falschpositiven illustriert wurde, kann bei falschnegativen Ergebnissen die Subgruppengröße ein zusätzlicher Grund sein: die Subgruppe hat nicht genug Teilnehmer, um eine Wirkung erkennen zu können [3]. So deuteten frühere Studien auf Basis von Subgruppenanalysen darauf hin, dass Aspirin nach einem Schlaganfall nur bei Männern das Risiko eines weiteren Schlaganfalls oder Todes reduzierte [4]. Tatsächlich ist der Nutzen bei Frauen genauso groß, die Anzahl von Frauen mit Schlaganfall in dieser Studie war aber nicht ausreichend, um diesen Effekt zu belegen [5].

Wohlgemerkt: Richtig angewandt, sind Subgruppenanalysen ein sehr nützliches Instrument. Zum Beispiel wurde durch Subgruppenanalysen in Studien zur Untersuchung von Halsoperationen bei Patienten mit teilblockierten Arterien zutreffend nachgewiesen, dass verschiedene Eigenschaften wie Alter, vorherige Schlaganfälle und Herzinfarkte die mit dem Eingriff verbundenen Risiken beeinflussen [6].

Fazit

Allzu oft werden Subgruppenanalysen vor Beginn einer Studie schlecht oder gar nicht geplant [7]. Manchmal werden Behandlungseffekte innerhalb der Subgruppen wegen der geringen Anzahl von relevanten Teilnehmern übersehen. Die Durchführung einer Vielzahl von Subgruppenanalysen erhöht die Wahrscheinlichkeit, dass scheinbar signifikante Effekte in Wirklichkeit ausschließlich auf den Zufall zurückzuführen sind. Schlussfolgerungen zur Wirksamkeit einer Behandlung, die allein aus Subgruppenanalysen gezogen werden, können sehr irreführend sein und sind mit Vorsicht zu genießen.

Text: Ed Walsh

Übersetzt von:

Redaktion: Cochrane Deutschland

Zum Originaltext

Zu den Quellenangaben

Anmerkungen:

Dies ist der 24. Beitrag einer Blogserie zu einer Zusammenstellung von „Schlüsselkonzepten zur besseren Bewertung von Aussagen zu Behandlungen“, die im Rahmen des Informed Health Choices Projektes erarbeitet wurden. Jeder der insgesamt 36 Blogbeiträge befasst sich mit einem der Schlüsselkonzepte, die als wichtig dafür erachtet werden, Aussagen zu Wirkungen von Behandlungen besser verstehen und einordnen zu können. 

Aus Gründen der besseren Lesbarkeit wird auf die gleichzeitige Verwendung männlicher und weiblicher Sprachformen verzichtet. Sämtliche Personenbezeichnungen gelten gleichermaßen für alle Geschlechter.

Schlüsselkonzept 2.11

2.11 Ergebnisse von Vergleichsstudien sollten immer vollständig veröffentlicht werden

Wie wichtig es ist, Behandlungsentscheidungen auf der Grundlage angemessener Evidenz zu treffen, ist heute klarer denn je.

Um Evidenz als verlässlich einstufen zu können, müssen Studien, die medizinische Behandlungen untersuchen, faire Vergleiche umfassen. Zum Beispiel darf keine der Behandlungsgruppen irgendwelche vorteilhaften Eigenschaften aufweisen. Das wäre zum Beispiel der Fall, wenn Teilnehmer der Behandlungsgruppe jünger und gesünder wären als die der Kontrollgruppe. Auch müssen die Teilnehmer nach dem Zufallsprinzip den jeweiligen Gruppen zugeteilt werden, um die Ähnlichkeit wichtiger Teilnehmerindikatoren zu gewährleisten [2]. Sind Behandlungsvergleiche nicht fair, so führt das zu Verzerrungen (Biases), die die Ergebnisse einer Studie in Frage ziehen können.

„Reporting-Bias“ – oder das Selektive Berichten von Ergebnissen

Der „Reporting-Bias“ ist eine Verzerrung, die durch das selektive Berichten von Studienergebnissen oder Studien entsteht, wobei normalerweise positive Ergebnisse bevorzugt veröffentlicht werden. Reporting Bias ist in der Gesundheitsforschung weit verbreitet und als Problem schon seit geraumer Zeit bekannt [4]. Nützliche Informationen zu diesem Thema bietet auch die James Lind Library.

Es gibt verschiedene Formen von Reporting-Bias: Zum Beispiel werden statistisch signifikante, „positive“ Ergebnisse im Vergleich zu Null-Ergebnissen mit höherer Wahrscheinlichkeit überhaupt veröffentlicht („Publikationsbias“), schneller veröffentlicht („time-lag Bias“) und mit höherer Wahrscheinlichkeit in bedeutenden Fachzeitschriften veröffentlicht („Location-Bias“).

Auch innerhalb einer Studie kann Reporting-Bias auftreten. Zum Beispiel können Wissenschaftler selektiv bestimmte Ergebnisse berichten und andere nicht, je nachdem, ob ihnen Art und Richtung dieser Ergebnisse „ins Konzept passen“ („Outcome-Reporting-Bias“). Mehr zu den verschiedenen Arten von Reporting-Bias erfahren Sie hier.

Heute sind viele klinische Studien qualitativ hochwertig und Verzerrungen in Bezug auf unfaire Behandlungsvergleiche sind mittlerweile unwahrscheinlicher geworden als früher. Aber selbst wenn Studien auf fairen Behandlungsvergleichen beruhen, stellt das selektive Nicht-Publizieren von Studienergebnissen ein Problem dar, besonders wenn diese Null-Ergebnisse oder unerwartete Schlussfolgerungen für die Behandlung enthalten. Dies kann die gesamte Evidenzlage verfälschen.

Ein Beispiel: In den 1980er Jahren wurde eine Gruppe von Medikamenten (sogenannte Antiarrhythmika) oft angewandt, um Herzrhythmusstörungen zu kontrollieren, eine Indikation für die es einige Evidenz gab. Allerdings nahm man aufgrund der Tatsache, dass Herzrhythmusstörungen das Sterblichkeitsrisiko nach einem Herzinfarkt erhöhen, im Umkehrschluss an, dass diese Medikamente auch das herzinfarktbedingte Sterblichkeitsrisiko senken könnten.

Leider gab es für diese Annahme keine Evidenz. Tatsächlich war das Gegenteil der Fall: Die Medikamente verursachten in den 1980er Jahren zahlreiche Todesfälle. Später stellte sich heraus, dass Studien, die auf letale Auswirkungen dieser Medikamente hingedeutet hatten, nicht öffentlich zugänglich waren. Versuche, sie zu publizieren waren fehlgeschlagen, weil diese Ergebnisse nicht in das damalige Bild einer positiven Wirkung von Antiarrhythmika nach Herzinfarkt passten [1].

Die Folgen von Reporting-Bias für die Gesundheitsversorgung können weitreichend sein. Insbesondere wenn eine einzelne Studie als Grundlage für Behandlungsentscheidungen dient, kann das Nichtveröffentlichen oder Nichtberichten von Null-Ergebnissen schwerwiegende Konsequenzen haben.

Bedeutung für systematische Reviews

Schauen wir uns den Reporting-Bias einmal im Zusammenhang mit systematischen Reviews an. Systematische Reviews ermöglichen es an sich, unverzerrte Bewertungen von Behandlungseffekten zu erstellen. Da systematische Reviews ein Versuch sind, Verzerrungen zu reduzieren, dürften sie als verlässlicher gelten als andere Arten von Reviews (etwa narrative Reviews) oder einzelne Studien, die eher anfällig für systematische Fehler, Verzerrungen und Zufallseffekte sind [1]. Allerdings stellt die Qualität der Studien, die für den Review zur Verfügung stehen, natürlich auch eine Einschränkung der Qualität de Übersichtsarbeit dar. Wenn also die einzelnen Studien vom Reporting-Bias betroffen sind, kann auch der systematische Review die Wirksamkeit zu einer bestimmten Behandlung überschätzen oder nachteilige Wirkungungen unterschätzen.

Folgen von Reporting-Bias

Da Behandlungsentscheidungen und zukünftige Forschungsstudien von bisherigen Veröffentlichungen abhängen, können die verschiedenen Arten von Reporting-Bias schwerwiegende Folgen haben. Patienten, die auf Basis unvollständiger oder verzerrter Evidenz behandelt werden, können Schäden erleiden oder sogar sterben.
Reporting-Bias ist daher sowohl ein ein wissenschaftliches, als auch ethisches Problem [1].

Fazit

Wenn Sie einen systematischen Review lesen, sollten Sie sich fragen: „Haben die Autoren den Versuch unternommen, auch relevante nicht-veröffentlichte Evidenz zu ermitteln?“ Denn zumindest der Versuch sollte gemacht worden sein. [4].

Zum Glück gibt es Lösungsansätze für dieses Problem. In vielen Ländern besteht inzwischen die Verpflichtung, geplante Studien zu registrieren. Dadurch lässt sich später besser nachvollziehen, ob die Studien nach Plan durchgeführt und alle Ergebnisse berichtet wurden. Ein hervorragendes Werkzeug ist die Website „Trials Tracker“, auf der Organisationen und Arzneimittelhersteller benannt werden, welche Ergebnisse von registrierten Studien nicht fristgerecht berichtet haben. Hier kann man auch Studien identifizieren, deren Veröffentlichung noch aussteht.

Text: Benjamin Kwapong

Übersetzt von: Katharina Jones

Zum Originaltext 

Zu den Quellenangaben

Anmerkungen:

Dies ist der 23. Beitrag einer Blogserie zu einer Zusammenstellung von „Schlüsselkonzepten zur besseren Bewertung von Aussagen zu Behandlungen“, die im Rahmen des Informed Health Choices Projektes erarbeitet wurden. Jeder der insgesamt 36 Blogbeiträge befasst sich mit einem der Schlüsselkonzepte, die als wichtig dafür erachtet werden, Aussagen zu Wirkungen von Behandlungen besser verstehen und einordnen zu können.

Aus Gründen der besseren Lesbarkeit wird auf die gleichzeitige Verwendung männlicher und weiblicher Sprachformen verzichtet. Sämtliche Personenbezeichnungen gelten gleichermaßen für alle Geschlechter.

Übersichtsarbeiten zu fairen Behandlungsvergleichen sollten systematisch sein

Dies ist der 21. Beitrag einer Blogserie zu einer Zusammenstellung von „Schlüsselkonzepten zur besseren Bewertung von Aussagen zu Behandlungen“, die im Rahmen des Informed Health Choices Projektes erarbeitet wurden. Jeder der insgesamt 36 Blogbeiträge befasst sich mit einem der Schlüsselkonzepte, die als wichtig dafür erachtet werden, Aussagen zu Wirkungen von Behandlungen besser verstehen und einordnen zu können.

Wenn es um die bestmögliche Behandlung geht, sollten wir nach Reviews suchen, welche die verfügbare Evidenz möglichst vollständig und systematisch zusammenfassen, und zwar aus folgendem Grund:
Angenommen, eine neue, spannende einzelne Studie behauptet, dass sich mit einem neuen Medikament („Medikament A“) die Erkrankung B wirksam behandeln lässt. Sind die Ergebnisse dieser einen Studie dann uneingeschränkt verlässlich?

Nein.

Warum nicht?

Hier könnte es sich ganz einfach um einen Zufallseffekt handeln. Die vermeintlich bahnbrechende Erkenntnis ist möglicherweise rein zufällig zustande gekommen, selbst wenn die Anzahl der Teilnehmer und der festgestellten Endpunkte sehr hoch und die Studie methodisch ausgereift war (was oft nicht der Fall ist). Das Studienergebnis kann schlicht ein Zufallstreffer sein.

Sich auf das Ergebnis dieser einen Studie zu verlassen, ist problematisch. Ärzte und Krankenversicherungsträger treffen ihre Entscheidungen normalerweise nicht auf Grundlage einer einzelnen Studie. Für wichtige Entscheidungen braucht es eine breite Evidenzlage [1].

Wie geht es weiter, wenn es viele Studien gibt?

Bevor wir uns ein Urteil bilden, müssen wir alle relevanten Studien dahingehend kritisch bewerten, ob Medikament A für die Erkrankung B wirksam ist. Dafür haben wir zwei Möglichkeiten.

Wir können einen narrativen Review (auch „herkömmlicher Review“) oder einen systematischen Review durchführen. Narrative Reviews beinhalten die Recherche nach relevanten Studien, es wird aber nicht vorher festgelegt, welche Studien eingeschlossen werden und warum. Bei systematischen Reviews dagegen wird in einem Protokoll definiert, was „relevante Studien“ sind. Alle Studien, die diese Anforderungen erfüllen, müssen eingeschlossen werden.

Im Gegensatz zu Autoren narrativer Reviews sollten Autoren systematischer Reviews ihr Protokoll idealerweise öffentlich zugänglich machen und in der endgültigen Version ihrer Arbeit ihre Kriterien sowie alle ihre Entscheidungsfindungen eindeutig benennen. Die Angaben sollten so genau sein, dass Andere den gleichen Review wiederholen und beurteilen können, ob sie ähnliche Ergebnisse erzielen. Systematische Reviews gelten daher als wissenschaftlicher und sind leichter überprüfbar als narrative Reviews [3].

Die Aussagekraft systematischer Reviews kann und soll wenn möglich mithilfe statistischer Verfahren, sogenannter Metaanalysen, erhärtet werden. In Metaanalysen werden Daten aus allen verfügbaren Studien statistisch zusammengefasst. Sie liefern gute Näherungswerte zu den Effekten der verglichenen Behandlungen [4]. Mehr zu diesem Thema erfahren Sie hier: consumers.cochrane.org/CochraneSummaries .

Warum systematische Reviews nützlich sind

Wie weiter oben gezeigt muss man bei der Durchführung von Reviews Maßnahmen treffen, um Verzerrungen (systematische Fehler) und Zufallseffekte (zufällige Fehler) zu reduzieren. Verzerrungen („Bias“) können auch durch vorgefasste Meinungen von Autoren und ökonomische Interessen entstehen. Diese Verzerrungen beeinflussen häufig die Wahrnehmung bestimmter Ergebnisse.

Bei narrativen Reviews gibt es einen großen Spielraum für Verzerrungen, da Reviewer Studien je nach deren Übereinstimmung mit zuvor gefassten Ansichten, Motivationen oder Hintergründen einbeziehen oder auslassen können. Reviewer können praktisch tun und lassen, was sie wollen, und jede Schlussfolgerung treffen, die ihnen und ihren Interessen genehm ist. Bei systematischen Reviews sind Verzerrungen zwar auch nicht ausgeschlossen, werden aber durch entsprechende Maßnahmen möglichst reduziert. Die Reviewer machen transparent, was sie tun, und sie müssen ihre Entscheidungen begründen. Mit diesen Informationen können wir eher darauf vertrauen, dass das Verzerrungsrisiko solcher Arbeiten relativ gering ist.

Aber auch systematische Reviews haben ihre Probleme. Wie alles in der Forschung ist auch hier die Qualität sehr unterschiedlich; einige systematische Reviews sind nicht vertrauenswürdig. Bei einer Wiederholung des Reviews kommen unterschiedliche Autoren unter Umständen zu unterschiedlichen Schlussfolgerungen. Das kann passieren, weil in einem Review nicht alle relevanten Studien einbezogen wurden.

Sprache ist eine mögliche Barriere, die das Einbeziehen bestimmter Studien in einen Review verhindern kann. Zum Beispiel könnten einem englischsprachigen Reviewer relevante Studien in anderen Sprachen entgehen. Möglicherweise werden Studien aber auch außer Acht gelassen, weil sie vermeintlich nicht „spannend“ genug für eine Veröffentlichung waren. Manchmal halten sowohl Wissenschaftler als auch Pharmaunternehmen Studien, die nicht mit vorher gemachten Aussagen zu Behandlungen übereinstimmen, unter Verschluss.

Relevante Forschung auszulassen, weil sie die eigenen Aussagen zu Behandlungen nicht unterstützt, ist unethisch, unwissenschaftlich und unwirtschaftlich.

Ein Beispiel: Im Juni 2001 verstarb die junge, zuvor gesunde Labortechnikerin Ellen Roche nach der Teilnahme an einer Studie der John-Hopkins-Universität zur Messung der Atemwegsempfindlichkeit. Im Rahmen der Studie musste sie ein Medikament (Hexamethonium-Bromid) inhalieren. Das führte zu progredientem Lungen- und Nierenversagen. Der behandelnde Arzt Dr. Alkis Togias hatte die unerwünschten Wirkungen des Medikaments zwar recherchiert, die Recherche aber anscheinend auf Evidenz aus Datenbeständen begrenzt, die nur bis zum Jahr 1966 zurückreichten. Wie sich zeigte, war bereits in den 1950er Jahren in veröffentlichten Studien vor der Wirkung dieses Medikaments gewarnt worden. Der Tod von Ellen Roche wäre also vermeidbar gewesen [2].

Ein anderes Beispiel für die Notwendigkeit eines systematischen und gründlichen Reviews von Evidenz stammt aus der Behandlung von Herzinfarktpatienten. Ab den 1980er Jahren mussten viele Lehrbuch-Empfehlungen für Therapien nach einem Herzinfarkt revidiert werden, weil sie nicht auf Auswertungen der relevanten Evidenz beruhten. Wie sich herausstellte hatten Ärzte viele Jahre lang tatsächlich wirksame Therapien nicht eingesetzt und stattdessen Behandlungsmethoden verwendet, die Schäden hervorriefen[1].

Reviews sind als Grundlage für Behandlungsentscheidungen unverzichtbar, sie müssen aber systematisch erfolgen.

Text: Benjamin Kwapong

Übersetzt von: Katharina Jones

Zum Originaltext

Quellen

Klicken Sie hier für weitere Materialien zum Thema, warum Übersichtsarbeiten zu fairen Behandlungsvergleichen systematisch sein sollten

*Aus Gründen der besseren Lesbarkeit wird auf die gleichzeitige Verwendung männlicher und weiblicher Sprachformen verzichtet. Sämtliche Personenbezeichnungen gelten gleichermaßen für alle Geschlechter.