Bild IHC Key Concept 2.13

2.13 Angaben zu relativen Risiken können irreführend sein

Wir leben heute im Zeitalter von „Big Data“, mit Zugriff auf so viel mehr Informationen als alle unsere Vorfahren es jemals hatten. Mit einer kurzen Google-Suche kann man zu fast allem eine Statistik finden – aber kann man ihr auch vertrauen? Wir müssen sehr umsichtig sein, wenn wir die vielen Daten, mit denen wir konfrontiert werden, auch richtig interpretieren wollen.

Dies ist der 25. Beitrag einer Blogserie zu „Schlüsselkonzepten zur besseren Bewertung von Aussagen zu Behandlungen“, die im Rahmen des Projektes Informed Health Choices erarbeitet wurden. Jeder der insgesamt 36 Blogbeiträge befasst sich mit einem Schlüsselkonzept, die wichtig dafür sind, Aussagen zu Wirkungen von Behandlungen besser verstehen und einordnen zu können. 

Statistische Behauptungen in den Medien

Beim Zeitungslesen könnte man den Eindruck bekommen, dass so ziemlich alles irgendwie krebserregend ist. Die Daily Mail, ein britisches Boulevardblatt, berichtet beispielsweise, dass Dinge wie Deodorants, Suppen, Sonnencreme und sogar Oralsex das Risiko für bestimmte Krebsarten erhöhen können[1]. Viele dieser Behauptungen mögen durchaus auf guter wissenschaftlicher Evidenz über statistische Risikofaktoren beruhen. Doch bevor wir voreilige Schlüsse ziehen und Anderen entsprechende Handlungsempfehlungen geben, müssen wir uns hier die Frage stellen, bis zu welchem Grad solche Aussagen verlässlich sind. Es ist eminent wichtig, die Fakten zu prüfen, und nicht einfach alles, was unsere Facebook-Freunde teilen, als der Weisheit letzter Schluss zu betrachten. Ein wichtiger Vorbehalt gegenüber Schlagzeilen nach dem Schema „X erhöht das Risiko von Y um Z Prozent“ lautet, dass eine statistische Assoziation von X und Y noch lange keinen kausalen Zusammenhang bedeutet. Darüber haben wir bereits in einem früheren Schlüsselkonzept ausführlich gesprochen. Kaum weniger wichtig ist es, Angaben zu Risiken auf ihre Aussagekraft zu prüfen.

Wenn man beispielsweise liest, dass gemäß einer Studie „bei Frauen, die zur Körperhygiene jeden Tag Talkum anwenden, eine um 40% höhere Wahrscheinlichkeit besteht, Eierstockkrebs zu entwickeln“ [2], ist man vielleicht derart verängstigt, dass man dieses Produkt nie wieder anrührt. Aber: Diese Statistik für sich allein genommen hat wenig Aussagekraft. Denn wir wissen nicht:

  • Wie viele Personen Talkum in der Studie anwendeten.
  • Wie viele Personen insgesamt an der Studie teilnahmen.
  • Wie viele Frauen in der Untersuchungs- bzw. Kontrollgruppe Eierstockkrebs hatten (Anwenderinnen von Talkum im Vergleich zu Frauen, die es nicht anwendeten).
  • Diese Statistik sagt nichts über viele andere Faktoren aus, die hier eine Rolle spielen könnten. In diesem Beispiel ergab die Studie lediglich, dass nur bei postmenopausalen Frauen ein erhöhtes Risiko bestand, wenn Talkum direkt im Schambereich angewendet wurde. Auch wurde berichtet, dass in der „Talkum-Gruppe“ mehr übergewichtigere Personen waren als in der „Nicht-Talkum-Gruppe“. Dies ist in diesem Fall von besonderer Bedeutung, da Übergewicht ein bekannter Risikofaktor für Eierstockkrebs ist. [3]

Das Problem ist, dass diese Statistik (eine um 40% höhere Wahrscheinlichkeit) ein relatives Risikos [AP1] darstellt. Ein relatives Risiko ist eine Art der Berichterstattung eines Risikos in Prozentsätzen, aber nur in Relation zur Vergleichsgruppe und nicht unter Berücksichtigung der Gesamtzahl der betroffenen Personen oder Krankheitsfälle. Diesen Punkt betont Dr. Jodie Moffat von Cancer Research UK: „Es ist wichtig, darauf hinzuweisen, dass nur sehr wenige Frauen, die Talkum anwenden, jemals Eierstockkrebs entwickeln werden. [2]

Relatives oder absolutes Risiko?

Es gibt viele verschiedene Arten, Risiken zu bestimmen. Das relative Risiko, manchmal auch als Risiko-Verhältnis bezeichnet, stellt den Unterschied zwischen zwei Gruppen einfach dar. Es kann jedoch irreführend sein, da es nicht die ursprüngliche Anzahl der Fälle wiedergibt. Nehmen wir als Beispiel folgende Zahlen einer fiktiven Studie:

  • 100 Teilnehmer wurden mit einem Arzneimittel behandelt; von diesen litt ein Teilnehmer unter einen Herzinfarkt = 1% Risiko für einen Herzinfarkt
  • 100 Teilnehmer wurden mit einem Arzneimittel NICHT behandelt; von diesen erlitten zwei Teilnehmer einen Herzinfarkt = 2% Risiko für einen Herzinfarkt
Tabelle mit Zahlen aus Text

Man könnte vielleicht denken, dass die Differenz von einer Person von Hundert nicht allzu groß ist. Das relative Risiko wird jedoch ermittelt, indem man die 1 % und die 2 % vergleicht. Die resultierende Aussage lautet, dass „Personen, die dieses Arzneimittel nicht einnehmen, ein zweifach höheres Risiko für einen Herzinfarkt haben“, oder umgekehrt, dass „dieses Arzneimittel das Risiko für einen Herzinfarkt um 50% senkt“. Dies kann der Wahrheit entsprechen und in anderen Studien auch bestätigt werden. Dennoch kann es sein, dass dieses Arzneimittel nicht so wirksam ist, wie es scheint; Der Unterschied könnte lediglich zufällig sein. Aus diesem Grund muss der Umstand, dass zwischen den Gruppen nur eine Gesamtdifferenz von 1% bestand, ebenfalls genannt werden – wir bezeichnen dies als die absolute Risikodifferenz.

Number needed to treat

Ein weiteres nützliches Maß, das in der Medizin eingesetzt wird, um Risiken besser einodnen zu können, ist die „Number needed to treat“ (NNT) – also die Anzahl der Personen, die theoretisch behandelt werden müssen, damit eine von ihnen einen Nutzen davon hat.
Im obigen Beispiel betrüge die NNT 100, da ja bereits festgestellt wurde, dass das Arzneimittel an 100 Personen verabreicht werden muss, damit bei einer Person ein Herzinfarkt verhindert wird. Arzneimittel können Nebenwirkungen haben oder sehr kostspielig sein. Wenn also nicht viele Personen einen Nutzen davon haben, ist der Aufwand es zu verabreichen, vielleicht zu hoch.

Weitere Überlegungen

In die Überlegungen muss auch einfließen, wie hoch überhaupt die Wahrscheinlichkeit ist, dass ein bestimmtes Ergebnis eintritt. Man stelle sich beispielsweise ein Arzneimittel vor, dass die Wahrscheinlichkeit dafür, dass man eine bestimmte Krankheit bekommt, um 50% senkt. Das Arzneimittel verursacht jedoch Nebenwirkungen, und das Grundrisiko, die Krankheit überhaupt zu bekommen, liegt bei 2 von 100. In diesem Fall könnte eine Behandlung sinnvoll sein, solange der Nutzen in einem vernünftigen Verhältnis zu den Nebenwirkungen steht. Wenn jedoch das Risiko, die Krankheit überhaupt zu bekommen, nur bei 2 von 10.000 liegt, ist die präventive Behandlung wahrscheinlich nicht sinnvoll, auch wenn die relative Wirkung des Arzneimittels dieselbe ist.

Das relative Risiko kann zur Darstellung der Risikozunahme oder -reduktion von Krankheits- oder Risikofaktoren dienen (wie im Beispiel mit dem Talkum oben). Bei größeren Probandengruppen ist das relative Risiko relativ zuverlässig. Bei der Analyse von Studien mit kleineren Stichprobengrößen oder Studien, die seltenere Krankheiten untersuchen, kann es jedoch leicht einen falschen Eindruck vermitteln. Daher ist es wichtig, alles, was man in Zeitungen oder auch in wissenschaftlichen Fachzeitschriften liest, mit Vorsicht zu genießen, solange man nicht sämtliche Fakten kennt. Es muss sich nicht unbedingt um „Fake News“ handeln, kann aber dennoch irreführend sein.

Das nächste Mal, wenn Sie es mit einem relativen Risiko zu tun haben, fragen Sie sich auch, was das absolute Risiko ist.

Text: Gareth Grant

Übersetzt von:

Redaktion: Cochrane Deutschland

Zum Originaltext

Zu den Quellenangaben

Anmerkung: Aus Gründen der besseren Lesbarkeit wird auf die gleichzeitige Verwendung männlicher und weiblicher Sprachformen verzichtet. Sämtliche Personenbezeichnungen gelten gleichermaßen für alle Geschlechter.

Subgruppenanalysen können irreführend sein

Die Einnahme von Aspirin als Blutverdünner gehört zur Standardbehandlung nach einem Herzinfarkt und ist wissenschaftlich gut belegt[2]. In einer recht bekannten Studie, die die Einnahme von Aspirin zur Behandlung von Herzinfarkten untersuchte, zeigte sich bei Teilnehmern mit den Sternzeichen Zwillinge und Waage allerdings kein statistisch signifikanter Nutzen des Medikaments[1]. Wie kann das sein?

Ein solcher vermeintlicher Widerspruch kann entstehen, wenn man kleine Gruppen von Studienteilnehmern innerhalb einer Studie isoliert betrachtet. Insgesamt wurde die Wirksamkeit von Aspirin durchaus nachgewiesen.

Die Untersuchung einer Untergruppe von Teilnehmern mit bestimmten Eigenschaften bezeichnet man als „Subgruppenanalyse“. Eines der Probleme von Subgruppenanalysen ist die erhöhte Wahrscheinlichkeit von statistisch signifikanten, aber in Wirklichkeit falschpositiven Ergebnissen. Denn je mehr Charakteristika von Subgruppen analysiert werden (z.B. Geschlecht, Alter, Augenfarbe, Sternzeichen), desto wahrscheinlicher findet sich auf irgendeiner der Charakteristika zufällig ein statistisch signifikanter Effekt [3]. Dies soll nachfolgend anhand eines fiktiven Beispiels illustriert werden:

Die Marmeladenbrot-Studie

Angenommen, die Autoren einer Studie möchten untersuchen, ob Marmeladenbrote die Lebenszufriedenheit verbessert. Dafür nehmen sie 1000 Teilnehmer in diese Studie auf; 500 davon essen eine Woche lang zu jeder Mittagsmahlzeit Marmeladenbrote, während die anderen 500 ihr übliches Mittagessen zu sich nehmen. Endlich ist es soweit, die Studie wird ausgewertet, die Ergebnisse liegen vor: Zur großen Enttäuschung der Autoren zeigt sich keine statistisch signifikante Verbesserung der Lebenszufriedenheit nach dem Verzehr vieler Marmeladenbrote.

Daraufhin machen die Wissenschaftler eine Reihe von Subgruppenanalysen, um herauszufinden, ob die Wirkung der Marmeladenbrote bei unterschiedlichen Teilnehmern unterschiedlich ausfällt.

Zuerst untersuchen sie mögliche Unterschiede bei Männern und Frauen, aber offenbar stellte sich in keiner dieser Subgruppen irgendein statistisch signifikanter Nutzen ein. Dann betrachten sie getrennt Teilnehmer über und unter einer Körpergröße von 1,50 Meter, aber auch das war offenbar nicht mit einem statistisch signifikanten Nutzen verbunden. Anschließend werden Subgruppenanalysen nach Gewicht, Frisur, Beruf, Familienstand, Alter, Lungenfunktion und Cholesterinspiegel durchgeführt; alle ohne Erfolg.

Doch dann ein Treffer: Es stellt sich heraus, dass bei Teilnehmern mit grünen Augen nach täglichem Genuss von Marmeladenbroten eine statistisch signifikante Verbesserung der Lebenszufriedenheit eintrat. In Wirklichkeit hat die Augenfarbe natürlich keinerlei Einfluss auf die Wirksamkeit von Marmeladenbroten zur Verbesserung der Lebenszufriedenheit. Doch rein zufällig wies die Subgruppe von grünäugigen Teilnehmern, die Marmeladenbrote verzehrte, eine höhere Lebenszufriedenheit auf. Je öfter man schaut, desto größer wird das Risiko solcher falsch-positiven Ergebnisse (im Prinzip wie: je öfter ich würfle, desto größer ist die Wahrscheinlichkeit, dass zufällig zwei Mal nacheinander eine 6 gewürfelt wird und damit “mehr Glück” als meine Mitspieler habe).

Falschnegative Ergebnisse

Subgruppenanalysen können auch zu falschnegativen Ergebnissen führen, d. h. eine tatsächlich vorhandene Wirkung nicht erkennen. Neben dem gleichen Sachverhalt wie eben bei den Falschpositiven illustriert wurde, kann bei falschnegativen Ergebnissen die Subgruppengröße ein zusätzlicher Grund sein: die Subgruppe hat nicht genug Teilnehmer, um eine Wirkung erkennen zu können [3]. So deuteten frühere Studien auf Basis von Subgruppenanalysen darauf hin, dass Aspirin nach einem Schlaganfall nur bei Männern das Risiko eines weiteren Schlaganfalls oder Todes reduzierte [4]. Tatsächlich ist der Nutzen bei Frauen genauso groß, die Anzahl von Frauen mit Schlaganfall in dieser Studie war aber nicht ausreichend, um diesen Effekt zu belegen [5].

Wohlgemerkt: Richtig angewandt, sind Subgruppenanalysen ein sehr nützliches Instrument. Zum Beispiel wurde durch Subgruppenanalysen in Studien zur Untersuchung von Halsoperationen bei Patienten mit teilblockierten Arterien zutreffend nachgewiesen, dass verschiedene Eigenschaften wie Alter, vorherige Schlaganfälle und Herzinfarkte die mit dem Eingriff verbundenen Risiken beeinflussen [6].

Fazit

Allzu oft werden Subgruppenanalysen vor Beginn einer Studie schlecht oder gar nicht geplant [7]. Manchmal werden Behandlungseffekte innerhalb der Subgruppen wegen der geringen Anzahl von relevanten Teilnehmern übersehen. Die Durchführung einer Vielzahl von Subgruppenanalysen erhöht die Wahrscheinlichkeit, dass scheinbar signifikante Effekte in Wirklichkeit ausschließlich auf den Zufall zurückzuführen sind. Schlussfolgerungen zur Wirksamkeit einer Behandlung, die allein aus Subgruppenanalysen gezogen werden, können sehr irreführend sein und sind mit Vorsicht zu genießen.

Text: Ed Walsh

Übersetzt von:

Redaktion: Cochrane Deutschland

Zum Originaltext

Zu den Quellenangaben

Anmerkungen:

Dies ist der 24. Beitrag einer Blogserie zu einer Zusammenstellung von „Schlüsselkonzepten zur besseren Bewertung von Aussagen zu Behandlungen“, die im Rahmen des Informed Health Choices Projektes erarbeitet wurden. Jeder der insgesamt 36 Blogbeiträge befasst sich mit einem der Schlüsselkonzepte, die als wichtig dafür erachtet werden, Aussagen zu Wirkungen von Behandlungen besser verstehen und einordnen zu können. 

Aus Gründen der besseren Lesbarkeit wird auf die gleichzeitige Verwendung männlicher und weiblicher Sprachformen verzichtet. Sämtliche Personenbezeichnungen gelten gleichermaßen für alle Geschlechter.

Schlüsselkonzept 2.11

2.11 Ergebnisse von Vergleichsstudien sollten immer vollständig veröffentlicht werden

Wie wichtig es ist, Behandlungsentscheidungen auf der Grundlage angemessener Evidenz zu treffen, ist heute klarer denn je.

Um Evidenz als verlässlich einstufen zu können, müssen Studien, die medizinische Behandlungen untersuchen, faire Vergleiche umfassen. Zum Beispiel darf keine der Behandlungsgruppen irgendwelche vorteilhaften Eigenschaften aufweisen. Das wäre zum Beispiel der Fall, wenn Teilnehmer der Behandlungsgruppe jünger und gesünder wären als die der Kontrollgruppe. Auch müssen die Teilnehmer nach dem Zufallsprinzip den jeweiligen Gruppen zugeteilt werden, um die Ähnlichkeit wichtiger Teilnehmerindikatoren zu gewährleisten [2]. Sind Behandlungsvergleiche nicht fair, so führt das zu Verzerrungen (Biases), die die Ergebnisse einer Studie in Frage ziehen können.

„Reporting-Bias“ – oder das Selektive Berichten von Ergebnissen

Der „Reporting-Bias“ ist eine Verzerrung, die durch das selektive Berichten von Studienergebnissen oder Studien entsteht, wobei normalerweise positive Ergebnisse bevorzugt veröffentlicht werden. Reporting Bias ist in der Gesundheitsforschung weit verbreitet und als Problem schon seit geraumer Zeit bekannt [4]. Nützliche Informationen zu diesem Thema bietet auch die James Lind Library.

Es gibt verschiedene Formen von Reporting-Bias: Zum Beispiel werden statistisch signifikante, „positive“ Ergebnisse im Vergleich zu Null-Ergebnissen mit höherer Wahrscheinlichkeit überhaupt veröffentlicht („Publikationsbias“), schneller veröffentlicht („time-lag Bias“) und mit höherer Wahrscheinlichkeit in bedeutenden Fachzeitschriften veröffentlicht („Location-Bias“).

Auch innerhalb einer Studie kann Reporting-Bias auftreten. Zum Beispiel können Wissenschaftler selektiv bestimmte Ergebnisse berichten und andere nicht, je nachdem, ob ihnen Art und Richtung dieser Ergebnisse „ins Konzept passen“ („Outcome-Reporting-Bias“). Mehr zu den verschiedenen Arten von Reporting-Bias erfahren Sie hier.

Heute sind viele klinische Studien qualitativ hochwertig und Verzerrungen in Bezug auf unfaire Behandlungsvergleiche sind mittlerweile unwahrscheinlicher geworden als früher. Aber selbst wenn Studien auf fairen Behandlungsvergleichen beruhen, stellt das selektive Nicht-Publizieren von Studienergebnissen ein Problem dar, besonders wenn diese Null-Ergebnisse oder unerwartete Schlussfolgerungen für die Behandlung enthalten. Dies kann die gesamte Evidenzlage verfälschen.

Ein Beispiel: In den 1980er Jahren wurde eine Gruppe von Medikamenten (sogenannte Antiarrhythmika) oft angewandt, um Herzrhythmusstörungen zu kontrollieren, eine Indikation für die es einige Evidenz gab. Allerdings nahm man aufgrund der Tatsache, dass Herzrhythmusstörungen das Sterblichkeitsrisiko nach einem Herzinfarkt erhöhen, im Umkehrschluss an, dass diese Medikamente auch das herzinfarktbedingte Sterblichkeitsrisiko senken könnten.

Leider gab es für diese Annahme keine Evidenz. Tatsächlich war das Gegenteil der Fall: Die Medikamente verursachten in den 1980er Jahren zahlreiche Todesfälle. Später stellte sich heraus, dass Studien, die auf letale Auswirkungen dieser Medikamente hingedeutet hatten, nicht öffentlich zugänglich waren. Versuche, sie zu publizieren waren fehlgeschlagen, weil diese Ergebnisse nicht in das damalige Bild einer positiven Wirkung von Antiarrhythmika nach Herzinfarkt passten [1].

Die Folgen von Reporting-Bias für die Gesundheitsversorgung können weitreichend sein. Insbesondere wenn eine einzelne Studie als Grundlage für Behandlungsentscheidungen dient, kann das Nichtveröffentlichen oder Nichtberichten von Null-Ergebnissen schwerwiegende Konsequenzen haben.

Bedeutung für systematische Reviews

Schauen wir uns den Reporting-Bias einmal im Zusammenhang mit systematischen Reviews an. Systematische Reviews ermöglichen es an sich, unverzerrte Bewertungen von Behandlungseffekten zu erstellen. Da systematische Reviews ein Versuch sind, Verzerrungen zu reduzieren, dürften sie als verlässlicher gelten als andere Arten von Reviews (etwa narrative Reviews) oder einzelne Studien, die eher anfällig für systematische Fehler, Verzerrungen und Zufallseffekte sind [1]. Allerdings stellt die Qualität der Studien, die für den Review zur Verfügung stehen, natürlich auch eine Einschränkung der Qualität de Übersichtsarbeit dar. Wenn also die einzelnen Studien vom Reporting-Bias betroffen sind, kann auch der systematische Review die Wirksamkeit zu einer bestimmten Behandlung überschätzen oder nachteilige Wirkungungen unterschätzen.

Folgen von Reporting-Bias

Da Behandlungsentscheidungen und zukünftige Forschungsstudien von bisherigen Veröffentlichungen abhängen, können die verschiedenen Arten von Reporting-Bias schwerwiegende Folgen haben. Patienten, die auf Basis unvollständiger oder verzerrter Evidenz behandelt werden, können Schäden erleiden oder sogar sterben.
Reporting-Bias ist daher sowohl ein ein wissenschaftliches, als auch ethisches Problem [1].

Fazit

Wenn Sie einen systematischen Review lesen, sollten Sie sich fragen: „Haben die Autoren den Versuch unternommen, auch relevante nicht-veröffentlichte Evidenz zu ermitteln?“ Denn zumindest der Versuch sollte gemacht worden sein. [4].

Zum Glück gibt es Lösungsansätze für dieses Problem. In vielen Ländern besteht inzwischen die Verpflichtung, geplante Studien zu registrieren. Dadurch lässt sich später besser nachvollziehen, ob die Studien nach Plan durchgeführt und alle Ergebnisse berichtet wurden. Ein hervorragendes Werkzeug ist die Website „Trials Tracker“, auf der Organisationen und Arzneimittelhersteller benannt werden, welche Ergebnisse von registrierten Studien nicht fristgerecht berichtet haben. Hier kann man auch Studien identifizieren, deren Veröffentlichung noch aussteht.

Text: Benjamin Kwapong

Übersetzt von: Katharina Jones

Zum Originaltext 

Zu den Quellenangaben

Anmerkungen:

Dies ist der 23. Beitrag einer Blogserie zu einer Zusammenstellung von „Schlüsselkonzepten zur besseren Bewertung von Aussagen zu Behandlungen“, die im Rahmen des Informed Health Choices Projektes erarbeitet wurden. Jeder der insgesamt 36 Blogbeiträge befasst sich mit einem der Schlüsselkonzepte, die als wichtig dafür erachtet werden, Aussagen zu Wirkungen von Behandlungen besser verstehen und einordnen zu können.

Aus Gründen der besseren Lesbarkeit wird auf die gleichzeitige Verwendung männlicher und weiblicher Sprachformen verzichtet. Sämtliche Personenbezeichnungen gelten gleichermaßen für alle Geschlechter.

Peer-Review und Veröffentlichung sind keine Garantie für zuverlässige Informationen

Dies ist der 22. Beitrag einer Blogserie zu einer Zusammenstellung von „Schlüsselkonzepten zur besseren Bewertung von Aussagen zu Behandlungen“, die im Rahmen des Informed Health Choices Projektes erarbeitet wurden. Jeder der insgesamt 36 Blogbeiträge befasst sich mit einem der Schlüsselkonzepte, die als wichtig dafür erachtet werden, Aussagen zu Wirkungen von Behandlungen besser verstehen und einordnen zu können.

Warum Peer-Review? Der Peer-Review soll mögliche Probleme mit der wissenschaftlichen Qualität einer Veröffentlichung, etwa Fehler in der Statistik, Ungereimtheiten und fragwürdige Schlussfolgerungen, aufdecken.

Veröffentlichungen in Peer-Review-Zeitschriften werden von unabhängigen Experten* des gleichen Fachgebiets begutachtet. Ein Peer-Review kann sowohl vor als auch nach der Veröffentlichung stattfinden, wobei der Review vor der Veröffentlichung in der akademischen Welt als Standardverfahren gilt. Das Konzept der Peer-Reviews stammt bereits aus dem Jahr 1731, als die Royal Society of Edinburgh eine Mitteilung folgenden Inhalts verbreitete [1]:

„Schriftlich eingesandte Beiträge werden je nach Thematik an jene Mitglieder verteilt, die in der Materie am besten bewandert sind. Ihre Identität wird dem Autor nicht bekanntgegeben“.

Heute ist der Peer-Review zentraler Bestandteil der Qualitätskontrolle und wesentliche Grundlage eines funktionierenden Wissenschaftsbetriebs. Die Royal Society, nationale Akademie der Wissenschaften des Vereinigten Königreichs, bemerkt dazu nicht ohne Stolz [2]:

„Peer-Review ist für die Führung des Wissenschaftsbetriebs, was die Demokratie für die Führung des Landes ist“.

Wie funktioniert Peer-Review?

Peer-Reviews werden in den einzelnen Zeitschriften sehr unterschiedlich gehandhabt; ein allgemeingültiges Verfahren gibt es nicht. Eine Zusammenfassung des gängigen Vorgehens ist in Abbildung 1 dargestellt. Es gibt drei Hauptarten von Peer-Reviews, die von der Royal Society of Edinburgh beschrieben werden [3]:

1. Single-blind Review (Einfachblindgutachten)
Am häufigsten in medizinischen Fachzeitschriften: Autor und Institution sind dem Gutachter bekannt, Autoren gegenüber bleibt der Gutachter aber anonym

Beispiel: New England Journal of Medicine (NEJM)

2. Double-blind Review (Doppelblindgutachten)
Weder Autor noch Gutachter kennen einander, nur der Redakteur kennt deren Identität

Beispiel: Medical Journal of Australia (MJA)

3. Offener Review
Autoren und Gutachter kennen einander

Beispiel: British Medical Journal (BMJ)

Abbildung 1. Zusammenfassung des gängigen Verfahrens beim Peer-Review [4]

Kann es im Zusammenhang mit Peer-Reviews zu Verzerrungen (Bias) kommen?

Peer-Reviews sind keineswegs perfekt. Das Verfahren ist, wie das Meiste in der Forschung, anfällig für Bias. Evidenz ist nicht automatisch allein deswegen zuverlässig, weil sie aus einem Peer-Review-Artikel stammt.

Zum Beispiel gibt es Belege für eine oftmals schlechte Übereinstimmung der Beurteilungen zwischen verschiedenen Peer-Reviewern. So besteht ein erheblicher Bias gegen Manuskripte mit Forschungsergebnissen, die im Widerspruch zum theoretischen Standpunkt des Gutachters stehen [5]. Eine im Journal of General Internal Medicine vorgestellte Studie hat gezeigt, dass Gutachter bei ihren Empfehlungen zur Annahme oder Überarbeitung beziehungsweise der Ablehnung eines Manuskripts kaum häufiger übereinstimmten als man nach dem Zufallsprinzip erwarten würde; dennoch legen Herausgeber großen Wert auf die Empfehlungen von Gutachtern [6]. Darüber hinaus zeigte eine Studie, dass wissenschaftliche Aufsätze mithilfe zahlreicher öffentlicher Reviews nach der Veröffentlichung durch Leser besser begutachtet wurden, als durch eine kleine Gruppe von Experten [7].

Auch die Verzerrung durch Gutachterpräferenzen („Reviewer Bias“) im einfach verblindeten Peer-Review-Verfahren ist Gegenstand anhaltender Diskussionen. Wenn den Gutachtern die Identität der Verfasser bekannt ist, können nach Auffassung von Kritikern indirekter Bias gegen Frauen [8] und Autoren mit ausländischen Nachnamen oder von weniger renommierten Institutionen [9] auftreten. Aus diesem Grunde halten einige Forscher doppelt verblindete Peer-Reviews für das bessere Verfahren.

Ein anderer Einwand bezieht sich auf multidisziplinäre Artikel: Gutachter, die in allen entsprechenden Disziplinen bewandert sind, sind schwer zu finden. Die Behandlung mehrerer verschiedener Themen in einer einzelnen Studie ist meist ein Nachteil für die Autoren solcher Arbeiten [3].

Wenn der Peer-Review versagt – Beispiele aus der Vergangenheit

Unabhängig davon, welches Review-System verwendet wird oder welche potenziellen Verzerrungen es erzeugen könnte, besteht immer die Möglichkeit, dass größere oder kleinere Fehler übersehen werden:

1. Impfungen und Autismus

Hier geht es um den wohl bekanntesten jemals zurückgezogenen Zeitschriftenartikel der Wissenschaftsgeschichte. In The Lancet stellte Andrew Wakefield 1998 eine kleine Studie vor, die zu zeigen schien, dass MMR-Impfungen gegen Masern, Mumps und Röteln Autismus auslösen könnten. Wie sich herausstellte, wählte Wakefield aus nicht offengelegtem finanziellem Interesse selektiv Teilnehmer aus und manipulierte Diagnosen und Krankheitsgeschichten [11]. Wakefields Aufsatz führte dazu, dass sich weniger Menschen impfen ließen und dadurch zu einem Anstieg von Masern, Mumps und Röteln. Vermehrte schwere Krankheitsverläufe und einige Todesfälle waren die Folge.

2. Peer-Review im Test: Vorsätzliche Fehler

2008 platzierten Forscher in einem demnächst zu veröffentlichenden 600 Wörter langen Studienbericht des British Medical Journal vorsätzlich acht Fehler und verschickten ihn an 300 Gutachter [12]. Die mittlere Anzahl der entdeckten Fehler betrug zwei. Zwanzig Prozent der Gutachter fanden überhaupt keine Fehler. Übersehen wurden gravierende Fehler wie methodische Schwächen, unrichtige Datenberichterstattung, ungerechtfertigte Schlussfolgerungen ebenso wie geringfügige Fehler wie Auslassungen und unrichtige Datenberichterstattung [13].

3. COOPERATE-Studie

In der COOPERATE-Studie wurde die Therapie mit einem Angiotensin-Konversionsenzym-Hemmer und einem Angiotensin-II-Rezeptorblocker untersucht. Das Ergebnis war, dass eine Kombination beider Medikamente bei nicht-diabetischen Nierenerkrankungen besser wirkte als die Monotherapie [14]. Diese Studie wurde 2003 in The Lancet veröffentlicht und nach der Aufdeckung gravierender Mängel zurückgezogen. Im Gegensatz zu den Aussagen im Bericht war die Studie nie von einer Ethikkommission genehmigt worden, der Hauptautor hatte falsche Angaben über die Einholung der informierten Einwilligung gemacht, die Beteiligung eines Statistikers konnte nicht nachgewiesen werden, die Behandlung war nicht doppelt verblindet, da der Hauptautor das Zuteilungsschema kannte und die Kommission konnte die Echtheit des vom Hauptautor erstellten Datensatzes nicht feststellen [15].

Was können wir tun?

Man kann das Peer-Review-Verfahren zwar nicht gerade dafür verantwortlich machen, dass einige dieser Fehler übersehen wurden, beispielsweise die Datenmanipulation durch Wakefield oder die falschen Angaben des COOPERATE-Hauptautors über die Zustimmung der Ethikkommission. Dennoch konfrontieren diese Fälle uns mit der Tatsache, dass ein Peer-Review noch keine Garantie für Zuverlässigkeit ist. Einiges liegt außerhalb unserer Kontrolle, aber es gibt auch einiges, was wir tun können:

1. Den Artikel, insbesondere den Methodenteil, kritisch bewerten

Lesen Sie nicht nur den Abstract oder die wichtigsten Ergebnisse. Lesen Sie den Aufsatz von Anfang bis Ende durch, besonders den Methodenteil. Bewerten Sie den Aufsatz selbst, mithilfe anderer Blog-Artikel aus unserer „Schlüsselkonzepte“-Serie. Fragen Sie sich: Welche Merkmale könnten zu Verzerrungen führen? Und, genauso wichtig: Welche fehlenden Merkmale, die nicht erwähnt wurden, aber erwähnt werden sollten, könnten zu Verzerrungen führen?

Die kritische Bewertung und die Einschätzung des Verzerrungsrisikos sind Kompetenzen, die sich nicht über Nacht aneignen lassen. Eine Hilfe zur Vereinfachung und Strukturierung kritischer Bewertungen bieten Instrumente zur Bewertung von systematischen Übersichtsarbeiten („Critical Appraisal Tools“, CATs) oder Checklisten, wie z. B. vom Critical Appraisal Skills Programme (CASP) UK, Scottish Intercollegiate Guidelines Network (SIGN) oder dem Centre for Evidence-Based Medicine (CEBM). Auch die Leitlinien des EQUATOR network, die mit praktischen Checklisten für alle Studiendesigns eine akkurate und transparente Berichterstattung fördern, können eine nützliche Ressource sein. Die Autoren von Students 4 Best Evidence haben eine Liste dieser CATs und anderer international verbreiteter Hilfen zusammengetragen, die Sie unter diesem Link finden. Man sollte sich bewusst sein, dass diese Instrumente ebenfalls zu Verzerrungen führen können; dennoch sind sie ein guter Ausgangspunkt, wenn man sich näher mit der Bewertung von Evidenz beschäftigen will.

2. Eine gesunde Skepsis bewahren

Wir glauben nicht alles, was im Internet steht oder was im Fernsehen gezeigt wird. Dementsprechend sollten wir Informationen auch dann kritisch bewerten können, wenn sie in einer bedeutenden Fachzeitschrift wie NEJM oder Lancet veröffentlicht werden. Nicht das Ansehen der Zeitschrift zählt, sondern die Qualität des Textes – die Sie selbst einschätzen können. Wollen wir lieber einen funktionsfähigen Hyundai aus zweiter Hand oder einen Lamborghini ohne Räder? Vielleicht sollte der Satz lauten: Beurteile einen wissenschaftlichen Aufsatz nicht nach der Zeitschrift, in der er steht.

Fazit

Redaktionelles Peer-Review bleibt ein Eckpfeiler der wissenschaftlichen medizinischen Forschung [16] und fördert nach allgemeiner Auffassung eine bessere Qualität von Forschungsberichten. Untersuchungen zur Qualität medizinischer Forschungsberichte verdeutlichen allerdings, dass der Peer-Review keine Garantie für eine adäquate Berichterstattung von Forschungsergebnissen ist. Cochrane-Reviews der Forschung zur Effektivität von Peer-Reviews zeigen außerdem, dass das Verfahren nicht die Ergebnisse liefert, die ihm gemeinhin zugeschrieben werden. Wir sollten Aufsätze deshalb selbst kritisch bewerten. Das erhöht die Chance, Fehler aufzuspüren, die beim Peer-Review-Verfahren übersehen wurden.

Text: Dennis Neuen

Übersetzt von: Katharina Jones

Zum Originaltext

Quellen

*Aus Gründen der besseren Lesbarkeit wird auf die gleichzeitige Verwendung männlicher und weiblicher Sprachformen verzichtet. Sämtliche Personenbezeichnungen gelten gleichermaßen für alle Geschlechter.

Übersichtsarbeiten zu fairen Behandlungsvergleichen sollten systematisch sein

Dies ist der 21. Beitrag einer Blogserie zu einer Zusammenstellung von „Schlüsselkonzepten zur besseren Bewertung von Aussagen zu Behandlungen“, die im Rahmen des Informed Health Choices Projektes erarbeitet wurden. Jeder der insgesamt 36 Blogbeiträge befasst sich mit einem der Schlüsselkonzepte, die als wichtig dafür erachtet werden, Aussagen zu Wirkungen von Behandlungen besser verstehen und einordnen zu können.

Wenn es um die bestmögliche Behandlung geht, sollten wir nach Reviews suchen, welche die verfügbare Evidenz möglichst vollständig und systematisch zusammenfassen, und zwar aus folgendem Grund:
Angenommen, eine neue, spannende einzelne Studie behauptet, dass sich mit einem neuen Medikament („Medikament A“) die Erkrankung B wirksam behandeln lässt. Sind die Ergebnisse dieser einen Studie dann uneingeschränkt verlässlich?

Nein.

Warum nicht?

Hier könnte es sich ganz einfach um einen Zufallseffekt handeln. Die vermeintlich bahnbrechende Erkenntnis ist möglicherweise rein zufällig zustande gekommen, selbst wenn die Anzahl der Teilnehmer und der festgestellten Endpunkte sehr hoch und die Studie methodisch ausgereift war (was oft nicht der Fall ist). Das Studienergebnis kann schlicht ein Zufallstreffer sein.

Sich auf das Ergebnis dieser einen Studie zu verlassen, ist problematisch. Ärzte und Krankenversicherungsträger treffen ihre Entscheidungen normalerweise nicht auf Grundlage einer einzelnen Studie. Für wichtige Entscheidungen braucht es eine breite Evidenzlage [1].

Wie geht es weiter, wenn es viele Studien gibt?

Bevor wir uns ein Urteil bilden, müssen wir alle relevanten Studien dahingehend kritisch bewerten, ob Medikament A für die Erkrankung B wirksam ist. Dafür haben wir zwei Möglichkeiten.

Wir können einen narrativen Review (auch „herkömmlicher Review“) oder einen systematischen Review durchführen. Narrative Reviews beinhalten die Recherche nach relevanten Studien, es wird aber nicht vorher festgelegt, welche Studien eingeschlossen werden und warum. Bei systematischen Reviews dagegen wird in einem Protokoll definiert, was „relevante Studien“ sind. Alle Studien, die diese Anforderungen erfüllen, müssen eingeschlossen werden.

Im Gegensatz zu Autoren narrativer Reviews sollten Autoren systematischer Reviews ihr Protokoll idealerweise öffentlich zugänglich machen und in der endgültigen Version ihrer Arbeit ihre Kriterien sowie alle ihre Entscheidungsfindungen eindeutig benennen. Die Angaben sollten so genau sein, dass Andere den gleichen Review wiederholen und beurteilen können, ob sie ähnliche Ergebnisse erzielen. Systematische Reviews gelten daher als wissenschaftlicher und sind leichter überprüfbar als narrative Reviews [3].

Die Aussagekraft systematischer Reviews kann und soll wenn möglich mithilfe statistischer Verfahren, sogenannter Metaanalysen, erhärtet werden. In Metaanalysen werden Daten aus allen verfügbaren Studien statistisch zusammengefasst. Sie liefern gute Näherungswerte zu den Effekten der verglichenen Behandlungen [4]. Mehr zu diesem Thema erfahren Sie hier: consumers.cochrane.org/CochraneSummaries .

Warum systematische Reviews nützlich sind

Wie weiter oben gezeigt muss man bei der Durchführung von Reviews Maßnahmen treffen, um Verzerrungen (systematische Fehler) und Zufallseffekte (zufällige Fehler) zu reduzieren. Verzerrungen („Bias“) können auch durch vorgefasste Meinungen von Autoren und ökonomische Interessen entstehen. Diese Verzerrungen beeinflussen häufig die Wahrnehmung bestimmter Ergebnisse.

Bei narrativen Reviews gibt es einen großen Spielraum für Verzerrungen, da Reviewer Studien je nach deren Übereinstimmung mit zuvor gefassten Ansichten, Motivationen oder Hintergründen einbeziehen oder auslassen können. Reviewer können praktisch tun und lassen, was sie wollen, und jede Schlussfolgerung treffen, die ihnen und ihren Interessen genehm ist. Bei systematischen Reviews sind Verzerrungen zwar auch nicht ausgeschlossen, werden aber durch entsprechende Maßnahmen möglichst reduziert. Die Reviewer machen transparent, was sie tun, und sie müssen ihre Entscheidungen begründen. Mit diesen Informationen können wir eher darauf vertrauen, dass das Verzerrungsrisiko solcher Arbeiten relativ gering ist.

Aber auch systematische Reviews haben ihre Probleme. Wie alles in der Forschung ist auch hier die Qualität sehr unterschiedlich; einige systematische Reviews sind nicht vertrauenswürdig. Bei einer Wiederholung des Reviews kommen unterschiedliche Autoren unter Umständen zu unterschiedlichen Schlussfolgerungen. Das kann passieren, weil in einem Review nicht alle relevanten Studien einbezogen wurden.

Sprache ist eine mögliche Barriere, die das Einbeziehen bestimmter Studien in einen Review verhindern kann. Zum Beispiel könnten einem englischsprachigen Reviewer relevante Studien in anderen Sprachen entgehen. Möglicherweise werden Studien aber auch außer Acht gelassen, weil sie vermeintlich nicht „spannend“ genug für eine Veröffentlichung waren. Manchmal halten sowohl Wissenschaftler als auch Pharmaunternehmen Studien, die nicht mit vorher gemachten Aussagen zu Behandlungen übereinstimmen, unter Verschluss.

Relevante Forschung auszulassen, weil sie die eigenen Aussagen zu Behandlungen nicht unterstützt, ist unethisch, unwissenschaftlich und unwirtschaftlich.

Ein Beispiel: Im Juni 2001 verstarb die junge, zuvor gesunde Labortechnikerin Ellen Roche nach der Teilnahme an einer Studie der John-Hopkins-Universität zur Messung der Atemwegsempfindlichkeit. Im Rahmen der Studie musste sie ein Medikament (Hexamethonium-Bromid) inhalieren. Das führte zu progredientem Lungen- und Nierenversagen. Der behandelnde Arzt Dr. Alkis Togias hatte die unerwünschten Wirkungen des Medikaments zwar recherchiert, die Recherche aber anscheinend auf Evidenz aus Datenbeständen begrenzt, die nur bis zum Jahr 1966 zurückreichten. Wie sich zeigte, war bereits in den 1950er Jahren in veröffentlichten Studien vor der Wirkung dieses Medikaments gewarnt worden. Der Tod von Ellen Roche wäre also vermeidbar gewesen [2].

Ein anderes Beispiel für die Notwendigkeit eines systematischen und gründlichen Reviews von Evidenz stammt aus der Behandlung von Herzinfarktpatienten. Ab den 1980er Jahren mussten viele Lehrbuch-Empfehlungen für Therapien nach einem Herzinfarkt revidiert werden, weil sie nicht auf Auswertungen der relevanten Evidenz beruhten. Wie sich herausstellte hatten Ärzte viele Jahre lang tatsächlich wirksame Therapien nicht eingesetzt und stattdessen Behandlungsmethoden verwendet, die Schäden hervorriefen[1].

Reviews sind als Grundlage für Behandlungsentscheidungen unverzichtbar, sie müssen aber systematisch erfolgen.

Text: Benjamin Kwapong

Übersetzt von: Katharina Jones

Zum Originaltext

Quellen

Klicken Sie hier für weitere Materialien zum Thema, warum Übersichtsarbeiten zu fairen Behandlungsvergleichen systematisch sein sollten

*Aus Gründen der besseren Lesbarkeit wird auf die gleichzeitige Verwendung männlicher und weiblicher Sprachformen verzichtet. Sämtliche Personenbezeichnungen gelten gleichermaßen für alle Geschlechter.