Vertrauen ist gut, Kontrolle ist besser: Bei der Verwendung von Evidenz für eine informierte klinische Entscheidung ist es für uns wichtig zu wissen, ob die Evidenz von guter oder schlechter Qualität ist – d.h. ob die Forschungsarbeit angemessen durchgeführt wurde – und wie es um die Vertrauenswürdigkeit der Evidenz bestellt ist – d.h. mit welcher Wahrscheinlichkeit die Ergebnisse einer Studie der tatsächlichen Wirkung der Behandlung in einer gegebenen Situation entsprechen.
Wenn wir die klinische Praxis ändern, also z.B. eine neue Behandlung einführen oder einen alten Therapieansatz verwerfen – sollten wir unsere Entscheidungen auf Grundlage von qualitativ hochwertiger Evidenz fällen und den Ergebnissen dieser Evidenz vertrauen können.
Den besten Überblick über die verfügbare Evidenz zu einer bestimmten Fragestellung liefern systematische Reviews. Diese Übersichtsarbeiten fassen die Evidenz aus sämtlichen relevanten Studien zur Fragestellung zusammen und bewerten sie kritisch. Sie gelten als „Goldstandard“ der Evidenz. Dabei kann ein systematischer Review durchaus ergeben, dass die ihm zugrunde liegende Evidenz aus wissenschaftlichen Studien wenig vertrauenswürdig ist – dafür gibt es eine Reihe möglicher Gründe, die wir in diesem Beitrag genauer betrachten werden. Doch wie können die Nutzer eines systematischen Reviews die Vertrauenswürdigkeit der darin enthaltenen Evidenz beurteilen?
Um bei diesem kritischen Punkt zu helfen, hat die GRADE Working Group, ein internationales Team von Forschenden, in den letzten 20 Jahren den hier vorgestellten GRADE-Ansatz entwickelt. Der vorliegende Blog-Artikel konzentriert sich auf den GRADE-Ansatz zur Bewertung der Vertrauenswürdigkeit von Evidenz, weil GRADE seit Jahren Teil eines jeden neuen Cochrane-Reviews ist und auch von anderen großen Organisationen wie der Weltgesundheitsorganisation WHO genutzt wird. Es gibt aber auch andere Instrumente mit dem gleichen Ziel.
Wie die Evidenz aus einem systematischen Review „geGRADEt“ wird
Der GRADE-Ansatz liefert den methodischen Rahmen für Autoren eines systematischen Reviews, um zu bewerten, wie vertrauenswürdig bzw verlässlich die vorliegende Evidenz aus den eingeschlossenen Studien ist. Dies ist abzugrenzen von der Betrachtung der Ergebnisse in Bezug auf die Wirksamkeit der Behandlung – so kann ein Review mit hochgradig vertrauenswürdiger Evidenz durchaus ergeben, dass die untersuchte Therapie unwirksam ist.
In der Praxis gehen die Autoren beim GRADEn eines Reviews so ähnlich vor, wie die Punktrichter beim Kunstturnen: Die Evidenz eines Reviews beginnt mit der bestmöglichen Bewertung von ⊕⊕⊕⊕ (also mit vier von vier möglichen Sternen), man spricht auch von „hoher Vertrauenswürdigkeit“ der Evidenz. (Anmerkung der Redaktion: Dies gilt jedenfalls für Reviews auf Basis von randomisierten kontrollierten Studien (RCTs); Evidenz aus Beobachtungsstudien beginnt auf der Stufe „niedrig“, kann dafür aber auf Basis bestimmter Qualitätsmerkmale hochgestuft werden.)
Dieser angängliche Vertrauensvorschuss wird nun aber mit Hilfe des klaren Kriterienkatalogs von GRADE hinterfragt. Die Vertrauenswürdigkeit der Evidenz wird heruntergestuft (d.h. sie verliert „Sterne“), je nach:
- Einschränkungen im Design der eingeschlossenen Studien
- Indirektheit der Evidenz
- Inkonsistenz
- Unzureichender Präzision (Genauigkeit)
- Publikations-Bias
1. Einschränkungen im Studiendesign: Wurden die eingeschlossenen Studien angemessen durchgeführt?
Obwohl RCTs generell als starke Evidenz gelten, werden sie nicht immer optimal durchgeführt – sei es aufgrund vermeidbarer Fehler in der Planung oder weil die Fragestellung prinzipiell nicht ohne Abstriche im Format einer wissenschaftlichen Studie beantwortbar ist. Beispielsweise kann bei einem RCT ein hohes Risiko für Bias (Verzerrung) entstehen, wenn die Teilnehmer nicht „verblindet“ werden. Denn die Kenntnis darüber, welche der zu vergleichenden Behandlungen sie erhalten haben, könnte ihr Ansprechen darauf beeinflussen. Auch bei der Zuteilung der Teilnehmer in die verschiedenen Behandlungs- bzw. Kontrollgruppen kann es zu Verzerrungen kommen, wenn diese nicht optimal randomisiert (also nach dem Zufallsprinzip) abläuft – denn eben dies ist ja das entscheidende Merkmal eines RCTs. Weitere Informationen zu den vielen Formen von Bias finden Sie im Catalogue of Bias des Centre for Evindence-Based Medicine der University of Oxford (auf Englisch).
Die am häufigsten angewandte Methode zur Bewertung des Verzerrungspotentials der in einen Review eingeschlossenen Evidenz ist das Cochrane Risk of Bias Tool.
Wenn die eingeschlossenen Studien nicht von hoher Vertrauenswürdigkeit sind, führt das Zusammenfassen ihrer Ergebnisse ebenfalls nicht zu robusten Schlussfolgerungen – im Fachjargon spricht man oft von „Garbage in = Garbage out“. In GRADE bedeutet dies für die Autoren eines Reviews:
- Herunterstufung um ⊕: Stufen Sie die Vertrauenswürdigkeit um 1 Stufe herab, wenn viele Studien ein unklares oder hohes Risiko für Bias haben und die Einschränkungen das Vertrauen in die Studienergebnisse mindern.
- Herunterstufung um ⊕⊕: Stufen Sie die Vertrauenswürdigkeit um 2 Stufen herab, wenn die meisten Studien ein hohes Risiko für Bias haben und sehr schwerwiegende Einschränkungen vorliegen.
2. Indirektheit: Sind die eingeschlossenen Studien auf Ihre Fragestellung anwendbar?
Reviews können eine Vielzahl unterschiedlicher Studien einschließen, die alle die Ein- und Ausschlusskriterien erfüllen. So kann es beispielsweise sein, dass in einem Review, der die Wirkung eines Arzneimittels auf die Leistung beim Sport betrachtet, viele der Studien nur Kinder oder nur Spitzensportler einschließen, obwohl Sie vielleicht vor allem an der Wirkung auf die Allgemeinbevölkerung interessiert sind (Indirektheit auf Ebene der Population). Indirektheit kann auch auf Ebene der Behandlung vorliegen, wenn beispielsweise eine psychologische Behandlung in den meisten Studien eines Reviews für 10 Stunden wöchentlich stationär durchgeführt wurde, Sie aber an der Anwendung der Intervention im Alltag der Patienten interessiert sind. Indirektheit findet sich häufig in Bereichen, in denen wenig Forschung durchgeführt wird, sodass die Review-Autoren nach Evidenz außerhalb des speziellen, sie eigentlich interessierenden Bereichs suchen, um die Review-Fragestellung adressieren zu können.
In GRADE sollten Sie die Vertrauenswürdigkeit der Evidenz nicht herabstufen, wenn alle Studien relevant und in wesentlichen Merkmalen ähnlich sind, die die Wirkung der Behandlung wahrscheinlich beeinflussen würden. Möglicherweise gibt es ein oder zwei kleine indirekte Studien, was keinen großen Einfluss auf die Gesamtergebnisse hätte.
- Herunterstufung um ⊕: Stufen Sie die Vertrauenswürdigkeit der Evidenz um 1 Stufe herab, wenn Sie der Ansicht sind, dass die Indirektheit der eingeschlossenen Studien (in Bezug auf Interventionen, Populationen, usw.) möglicherweise Unterschiede bei der Behandlungswirkung verursacht, die einen Einfluss auf die Ergebnisse der Zusammenfassung haben könnten.
3. Inkonsistenz: Bringen unterschiedliche Studien vergleichbare Ergebnisse?
Idealerweise würde man für alle in einen Review eingeschlossenen Studien einen in Größe und Richtung vergleichbaren Behandlungseffekt erwarten, der dann einen guten Schätzwert für den tatsächlichen Effekt im „wahren Leben“ liefern sollte. Wenn die Ergebnisse der Studien jedoch uneinheitlich sind, kann dies Grund sein, die Vertrauenswürdigkeit der Evidenz herabzustufen. Diese Inkonsistenz im Behandlungseffekt wird auch Heterogenität genannt. Wenn beispielsweise einige Studien zeigen, dass die Behandlung nützlich ist, und andere, dass sie schädlich ist, sollte man bezüglich der zusammengefassten („gepoolten“) Ergebnisse skeptisch sein. Wie können wir wissen, welcher Effekt in der uns interessierenden Patientengruppe auftreten wird? Selbst wenn alle Studien zeigen, dass die Behandlung besser als die Vergleichsbehandlung (Kontrolle) ist, sollten wir möglicherweise dennoch Bedenken hegen, wenn einige Studien einen sehr kleinen Nutzen und andere einen sehr großen Nutzen zeigen.
Inkonsistenz kann einfach in einem Forest-Plot oder mittels einer speziellen Statistik erkannt werden. Manchmal gibt es Erklärungen für die Inkonsistenz, beispielsweise wenn die Behandlung nur für eine Untergruppe von Patienten nützlich ist, oder wenn unterschiedlich hohe Dosen angewendet wurden. In GRADE bedeutet dies:
- Herunterstufung um ⊕: Stufen Sie die Vertrauenswürdigkeit der Evidenz um 1 Stufe herab, wenn die Ergebnisse verschiedener Studien uneinheitlich sind, und kein Gründe angeben, welche die Unterschiede im Behandlungseffekt erklären.
4. Unzureichende Präzision: Wurden ausreichend Patienten eingeschlossen?
Sind die Ergebnisse der eingeschlossenen Studien unzureichend präzise (zu ungenau), kann dies zu einer Herabstufung der Vertrauenswürdigkeit der Ergebnisse führen. Unzureichende Präzision bedeutet im Kern, dass der geschätzte Effekt der Behandlung sehr ungenau ist; die Behandlung kann in Wirklichkeit auch einen viel größeren oder kleinerern Nutzen haben. Dies zeigt sich durch weite Konfidenzintervalle der Ergebnisse und ist in der Regel darauf zurückzuführen, dass die Studien eine zu geringe Anzahl von Ergebnisereignissen bzw. Ergebnissen enthalten. Lesen Sie hierzu mehr unserem Schlüsselkonzept-Artikel hier.
Selbst wenn die eingeschlossenen Studien sehr klein sind, können sie unter Umständen präzise Ergebnisse liefern, wenn sie statistisch kombiniert (das heißt ihre Ergebnisse rechnerisch zusammengefasst) werden. Daher sollten neben der Anzahl der Teilnehmer, die in jede einzelne Studie eingeschlossen wurden, auch die Konfidenzintervalle und die Gesamtzahl der Teilnehmer für die kombinierten Ergebnisse im Review betrachtet werden. Solche einzelheiten werden in einem Review üblicherweise in einer zusammenfassenden Ergebnistabelle („Summary of findings“-Tabelle) dargestellt . In GRADE bedeutet die Frage nach der Präzision von Evidenz:
- Herunterstufung um ⊕: Stufen Sie die Vertrauenswürdigkeit der Evidenz um 1 Stufe herab, wenn die Ergebnisse nicht ausreichend präzise sind. Dies ist normalerweise der Fall, wenn zu wenige Teilnehmer eingeschlossen wurden, oder wenn das Konfidenzintervall des Ergebnisses sowohl einen großen Effekt (in jegliche Richtung) als auch „keinen Effekt“ einschließt.
5. Publikationsbias: Könnte es sein, dass relevante Studien fehlen?
Das Vertrauen in die Evidenz kann auch durch Publikationsbias geschwächt werden. Dieser liegt vor, wenn nicht alle Studien oder Ergebnisse veröffentlicht werden. Denn die Ergebnisse dieser Studien könnten die Gesamtschlussfolgerungen verändern, wenn sie in den Review eingeschlosssen würden. Es geschieht häufig, dass Studien nicht veröffentlicht werden, nur weil sie keinen statistisch signifikanten Nutzen der Behandlung zeigen. Oder Interessenkonflikte (z.B. bei klinischen Studien zu potentiell gewinnbringenden Arzneimitteln) führen dazu, dass „unerwünschte“ Ergebnisse in der Schublade landen. Es gibt große Bemühungen für die vollständige Veröffentlichung aller klinischen Studien, um dieses Problem zu vermeiden. Besonders aktiv ist dabei die britische AllTrials Campaign oder die Inititative Transparimed.
In systematischen Reviews kann das Risiko für Publikationsbias mittels Funnel Plots untersucht werden. Dis ist jedoch schwierig, wenn der Review nur wenige Studien beinhaltet. Der Verdacht auf Publikationsbias wird auch verringert , wenn die Review-Autoren „graue Literatur“ (Literatur, die nicht in den großen, klassischen wissenschaftlichen Datenbanken zu finden ist) durchsuchen, eine systematische Suche in mehreren Datenbanken durchführen oer bei ihrer Suche keine Einschränkungen der Publikationssprache vornehmen. In GRADE wird ein möglicher Publikationsbias wie folgt berücksichtigt:
- Herunterstufung um ⊕: Stufen Sie die Vertrauenswürdigkeit der Evidenz um 1 Stufe herab, wenn Sie den Verdacht haben, dass Publikations Bias-Bias vorliegt.
Zusammenfassung
Nachdem Sie in GRADE jeden einzelnen Aspekt geprüft haben, zählen Sie die Anzahl der Stufen, um die herabgestuft wurde. Der Review startet mit ⊕⊕⊕⊕ und verliert bei jeder Herunterstufung ein ⊕. Dies ergibt die Bewertung der Vertrauenswürdigkeit der Evidenz:
⊕⊕⊕⊕ = „Hohe Vertrauenswürdigkeit“
⊕⊕⊕ = „Moderate Vertrauenswürdigkeit“
⊕⊕ = „Niedrige Vertrauenswürdigkeit“
⊕ = „Sehr niedrige Vertrauenswürdigkeit“
Wir wünschen uns natürlich, dass unsere Evidenz eine möglichst hohe Vertrauenswürdigkeit hat. Ist die Evidenz von niedriger oder sehr niedriger Vertrauenswürdigkeit, sollten wir uns für eine informierte klinische Entscheidungsfindung nicht allein darauf verlassen.
Einige wichtige Punkte, die Sie sich merken sollten:
- Wenn Sie die Ergebnisse eines systematischen Review für Ihre Entscheidungen verwenden, sollten Sie nicht nur das Gesamtergebnis ansehen, sondern stets auch die Vertrauenswürdigkeit der Evidenz zu prüfen. Ist sie niedrig oder sehr niedrig, so kann dies Grund dafür sein, sich gegen die Anwendung der entsprechenden Behandlung zu entscheiden.
- Die GRADE-Bewertung bezieht sich auf die Ergebnisse eines systematischen Reviews zu einem bestimmen Behandlungsergebnis (Outcome). Beispielsweise kann ein systematischer Review Evidenz von hoher Vertrauenswürdigkeit für das Ergebnis „Schmerz“ aufweisen, gleichzeitig aber Evidenz von niedriger Vertrauenswürigkeit für das Ergebnis „Lebensqualität“.
- Bei der Entscheidung für oder gegen die Anwendung einer Behandlung zeigen Ihnen Größe des Effekts und die Vertrauenswürdigkeit der Evidenz den potentiellen Nutzen einer Behandlung an, jedoch nicht immer auch deren Risken. Für eine vollständig informierte Entscheidung sollten wir auch die Nebenwirkungen und Risiken der Behandlung, einschließlich der wirtschaftlichen Kosten, berücksichtigen.
- Der Schwerpunkt dieses Blog-Artikels liegt auf der Anwendung des GRADE-Ansatzes in Reviews von Studien zur Wirksamkeit von Behandlungen. Bitte beachten Sie, dass der GRADE-Ansatz nicht auf andere Arten von Studien anwendbar ist, wie beispielsweise Studien, die diagnostische Tests untersuchen.
Anmerkung: Dies ist der 35. Beitrag aus der Blogserie „Schlüsselkonzepte zur besseren Bewertung von Aussagen zu Behandlungen“, die im Rahmen des Projektes Informed Health Choices erarbeitet wurden. Jeder der insgesamt 36 Blogbeiträge befasst sich mit einem Schlüsselkonzept, das dabei hilft, Aussagen zu Wirkungen von Behandlungen besser verstehen und einordnen zu können.
Originaltext: Bethan Copsey
Übersetzt von: Brita Fiess
- Zum Originaltext
- Nützliche Links: Guyatt G, Oxman AD, Akl EA, et al. GRADE guidelines: 1. Introduction-GRADE evidence profiles and summary of findings tables. J Clin Epidemiol. 2011;64(4):383- 394. doi: 10.1016/j.jclinepi.2010.04.026
Anmerkung: Aus Gründen der besseren Lesbarkeit wird auf die gleichzeitige Verwendung männlicher und weiblicher Sprachformen verzichtet. Sämtliche Personenbezeichnungen gelten gleichermaßen für alle Geschlechter.