„Evidenz gibt es immer!“ - Interview mit Jörg Meerpohl • Wissen Was Wirkt

Mit der Anfang Juli veröffentlichten Evaluation der bisherigen Corona-Maßnahmen durch den Sachverständigenrat der Bundesregierung und die Diskussion um mögliche Maßnahmen im nächsten Herbst ist „evidenzbasiert“ zu einem zentralen Begriff der gesellschaftlichen Debatte geworden. Doch was bedeutet das überhaupt? Ein ausgiebiges Gespräch mit Jörg Meerpohl , Direktor von Cochrane Deutschland und Direktor des Instituts für Evidenz in der Medizin am Universitätsklinikum Freiburg über widersprüchliche Studien, Rosinenpickerei und die schwierige Rolle von Expert*innen.

Herr Meerpohl, was bedeutet „evidenzbasiert“ für Sie als Experte auf dem Gebiet der evidenzbasierten Medizin?

Im engeren Sinne bedeutet evidenzbasierte Medizin, kurz EbM, die Nutzung der besten verfügbaren Daten und Informationen aus der klinischen Forschung für Gesundheitsentscheidungen. In einer Pandemie muss man dies u.a. um Daten aus der epidemiologischen und auch grundlagenwissenschaftlichen Forschung erweitern. Aber nicht nur die Medizin im engeren Sinne, sondern auch angrenzende Disziplinen, etwa die Physiotherapie und überhaupt die gesamte Gesundheitsversorgung sollten ja evidenzbasiert sein. Deshalb sprechen wir oft von Evidenzbasierter Gesundheitsversorgung, kurz EbGV.

Die evidenzbasierte Medizin trat zuerst in den neunziger Jahren an, um der Heilkunst eine bessere wissenschaftliche Grundlage zu geben. Wie hat sich das Verständnis von Evidenz seither verändert?

Es gibt heute im Wesentlichen zwei Sichtweisen auf die evidenzbasierte Medizin und Gesundheitsversorgung. Die eine, die ich bevorzuge, versteht unter EbM nach wie vor das methodisch-systematische Vorgehen. Es geht darum, systematisch und transparent die relevante existierende wissenschaftliche Literatur zu einer Fragestellung zu identifizieren, kritisch zu bewerten und für Entscheidungen zu nutzen. Dieses systematische Zusammenführen von Studien können wir auch anwenden, wenn wir wenig Evidenz haben. Das ist häufig bei seltenen oder neuartigen Erkrankungen der Fall – und so auch zu Beginn der Corona-Pandemie.

Häufig wird „evidenzbasiert“ aber auch so gedeutet, dass eine gewisse Qualität oder Vertrauenswürdigkeit der Evidenz vorliegt, und eine Maßnahme so gerechtfertigt werden kann. Hier wird der Begriff eher als Qualitätslabel für die Erkenntnislage verwendet. Dies nicht zu unterscheiden führt häufig zu Missverständnissen. Denn dann wird argumentiert, wir könnten gar nicht evidenzbasiert handeln, weil es noch keine ausreichend gute Evidenz gebe. Aus meiner Sicht können wir aber immer evidenzbasiert vorgehen. Nur sollten wir dabei transparent kommunizieren, wie vertrauenswürdig diese Evidenz ist. Auf diese Weise löst sich der scheinbare Widerspruch wieder etwas auf.

Also können wir auf die Frage, was Masken oder eine vierte Impfdosis bringen, jederzeit eine evidenzbasierte Antwort geben, auch wenn es nur einige oder widersprüchliche Studien gibt?

Absolut, wir können solche Fragen immer mit den Methoden der EbM untersuchen. Wir werden nur nicht immer eindeutige Antworten finden. Die relevante Einheit der evidenzbasierten Medizin ist die Bewertung der Wirksamkeit einzelner Maßnahmen. Das leisten viele Forschungsgruppen, u.a. auch von Cochrane, weltweit, auch in der COVID-Pandemie. Unser wichtigstes methodisches Instrument ist hierbei die systematische Übersichtsarbeit. Das Ziel dieser von interdiziplinären Teams erstellten Reviews ist das Zusammenstellen und die Bewertung der international verfügbaren Evidenz. Hiervon abzugrenzen ist der nachfolgende Schritt, also das Ableiten von Handlungsempfehlungen z.B. für die Medizin oder die Politik.

Eine zu geringe Zahl von Studien zu COVID-19 kann man inzwischen ja nicht mehr beklagen. Im Gegenteil. Doch nicht alle Studien sind gleich gut. Wie entscheidet man, welche Evidenz zählt?

Wenn es um die Einschätzung der Wirksamkeit von Maßnahmen geht, stehen historisch aus vielen Gründen randomisierte kontrollierte Studien, kurz RCTs, in der Evidenzhierarchie oben. Bei diesen erfolgt die Zuteilung zu einer Vergleichsgruppe zufällig. Sie sind daher weniger fehleranfällig als andere Studientypen und somit besser geeignet, um die Effekte einer Maßnahme zu untersuchen. Diese einfache Unterscheidung anhand der Evidenzhierarchie ist in der EbM lange eingesetzt worden, um Ordnung in die Vielzahl an Studien zu bringen.

Die Methodik der EbM hat sich aber weiterentwickelt, und man hat verstanden, dass es gute und schlechte randomisierte Studien gibt. Ebenso gibt es gute und schlechte Beobachtungsstudien, die in der Evidenzhierarchie traditionell ja weiter unten stehen. Häufig sind gute Beobachtungsstudien auf Jahre angelegt, und haben viel mehr Teilnehmer*innen. Entsprechend sehen wir das heute differenzierter. Letztlich möchten wir ja wissen, wie vertrauenswürdig in der Zusammenschau aller Studien die Gesamtevidenz für eine Fragestellung ist.

Wie lässt sich diese unterschiedliche Vertrauenswürdigkeit denn bewerten und nachvollziehbar kommunizieren?

Dafür gibt es schon länger den methodischen Ansatz von GRADE, kurz für „Grading of Recommendations, Assessment, Development und Evaluation“. GRADE beinhaltet alle wichtigen Aspekte, die wir für eine verlässliche Einschätzung der Vertrauenswürdigkeit von Ergebnissen berücksichtigen müssen und hat sich mittlerweile international durchgesetzt.

Wichtig dabei: Mit dem GRADE-Ansatz bewerten wir nicht einzelne Studien, sondern die gesamte Evidenz zu einer konkreten Fragestellung. Das „Graden“ greift also auf der Syntheseebene, der Ebene der Zusammenfassung in systematischen Übersichtsarbeiten und Metaanalysen. Wir publizieren keine unserer Arbeiten mehr ohne dieses GRADEing. Auf diese Weise liefern wir hoffentlich immer die bestmögliche Antwort auf die entscheidende Frage, nämlich: Wie groß sind die zu erwarteten Effekte und wie gut können wir diesen Ergebnissen vertrauen?

Gerade in der pharmazeutischen Forschung gab es immer wieder Fälle, in denen Hersteller Studienergebnisse, die ihnen missfielen, in der Schublade verschwinden ließen. Veröffentlicht wurde dann nur, was ins Konzept passte. Wie geht man mit solchen Verzerrungen um?

Entscheidend für einen guten Review ist tatsächlich, dass man wirklich alle Studienergebnisse berücksichtigt, die existieren. Das beinhaltet ganz explizit auch diejenigen Studien, die keine eindeutigen, oder gar negative Ergebnisse erbracht haben. Solche Ergebnisse werden aber oft erst gar nicht publiziert. Wenn ich solche Studien nicht berücksichtige, und nur die Studien mit einem positiven Effekt in einer systematischen Übersichtsarbeit einschließe, kommt es zu einer Überschätzung des wahren Effektes – man bezeichnet diese Verzerrung als Publication Bias oder Dissemination Bias.

Das Problem der nicht publizierten Studienergebnisse ist aber nicht auf die pharmazeutische Industrie beschränkt. Es kann auch nicht-finanzielle, sogenannte akademische Interessen und entsprechend Interessenskonflikte geben, die dazu führen können, dass Studienergebnisse nicht veröffentlicht werden. Stellen Sie sich einen Forscher oder eine Forscherin vor, die ein neuartiges medizinisches Verfahren entwickelt hat. Ihr würde es nicht leichtfallen, Ergebnisse zu publizieren, die Zweifel an Wirksamkeit und Sicherheit des Verfahrens aufkommen lässt. Und selbst wenn Forschende keine Interessenkonflikte haben, ist es oft sehr viel schwerer, sogenannte Nullergebnisse in einem Fachjournal publiziert zu bekommen. Dabei ist z. B. das Fehlen eines signifikanten Effekts einer Therapie in einer Studie ein ebenso wichtiger Baustein der Gesamtevidenz, wie eine Studie, die deutliche Effekte findet.

Ein Ansatz zur Lösung dieses Problems sind Studienregister, in denen man so etwas wie die Geburtsurkunde einer Studie anlegt. Sie bieten inzwischen die Möglichkeit, Ergebnisse zu hinterlegen, selbst wenn sie nicht in Form eines Fachartikels veröffentlicht worden sind. Diese Ergebnisse können so dann auch Eingang in systematische Übersichtsarbeiten finden. Die inzwischen zumeist verpflichtende Vorab-Registrierung geplanter Studien macht es auch wesentlich schwerer, unliebsame Studienergebnisse in der Schublade verschwinden zu lassen.

Oft findet man einfach nicht genug Studien, die genau die Frage untersucht haben, die einen interessiert. Was dann?

Dann muss ich gegebenenfalls Studien heranziehen, die methodisch schwächer sind, und so versuchen, die Frage bestmöglich zu beantworten. Und wenn das nicht funktioniert kann es sinnvoll sein, sogenannte indirekte Evidenz zu nutzen. Mit anderen Worten, als es insbesondere in der Frühphase der Pandemie keine oder kaum Studiendaten zum Maskentragen bei Corona gab, war es durchaus sinnvoll, auch Studiendaten z.B. mit Blick auf Influenza oder andere respiratorische Viren heranzuziehen. Das können sehr hilfreiche, wenn auch indirekte Informationen sein. Diese Indirektheit fließt bei der GRADE-Bewertung der Vertrauenswürdigkeit der Ergebnisse für die Frage „Nützen Masken bei Corona?“, ein.

Da bedeutet, Evidenz gibt es eigentlich immer?

Ja, oft aber nur von geringer Vertrauenswürdigkeit. Jedenfalls kann ich der Aussage, es gibt gar keine Evidenz für eine Frage, nicht zustimmen. Auch Einzelfallbeobachtungen, Tierstudien oder mathematische Modellierungen können als Evidenz herangezogen werden. Solche Evidenz ist in der Regel allerdings nicht ausreichend, um endgültige Entscheidungen für das Gesundheitssystem zu treffen. Aber wir sollten versuchen, drängende Fragen bestmöglich mit den Methoden der EbM zu beantworten. Wenn die Evidenz keine klare Antwort auf die Frage liefert, ob eine Maßnahme wirkt, dann müssen die Verantwortlichen notgedrungen unter Unsicherheit entscheiden. Das sollte aber in Kenntnis der vorhandenen Evidenz erfolgen. Die Unsicherheit, also der Gegenpart der Vertrauenswürdigkeit, muss dann aber auch klar kommuniziert und bei Empfehlungen berücksichtigt werden.

Das ist das Ideal der EbM. In Wirklichkeit gehen Expertenräte oder Fachverbände oft sehr selektiv vor, wenn sie für ihre Bewertungen und Empfehlungen Evidenz zitieren. Wie verhindert man eine solche Rosinenpickerei?

Einige dieser Gremien arbeiten in der Tat nicht im eigentlichen Sinne evidenzbasiert. Eine Berücksichtigung von nur einem Teil der vorhandenen Studien kann sinnvoll sein, wenn es viel Evidenz gibt. Hier ist es unter Gesichtspunkten der Ressourcenschonung sinnvoll, sich anhand von vorab festgelegten Kriterien auf die hochwertigen Studien zu konzentrieren. Ist die Evidenzlage allerdings spärlich und zugleich die zugrundeliegende Frage von hoher Wichtigkeit, sollte man versuchen, die Frage bestmöglich, d.h. auf der Basis der gesamten verfügbaren Evidenz, zu beantworten. Die Selektion der Evidenz sollte also nie auf der Basis der Ergebnisse stattfinden. Unpassende Resultate einfach zu ignorieren, also Rosinenpickerei, geht überhaupt nicht. Wenn wir eine Selektion durchführen, dann nur aufgrund vorab definierter methodischer Kriterien.

Von der Evidenzaufarbeitung zu trennen ist der nächste Schritt, also das Ableiten einer wissenschaftlichen Empfehlung. Hier gilt es in der Regel weitere Faktoren zu berücksichtigen, z.B. die Wertvorstellungen der Menschen, und auch andere Aspekte wie die Frage, ob etwas finanzierbar und umsetzbar ist.

Eine Tatsache in der Pandemie, die auch der Bericht des Sachverständigenrates bestätigt hat, bleibt der Mangel an Daten, speziell aus wirklich gut gemachten Studien. Wie schneidet die klinische Forschung in Deutschland hierbei ab?

Natürlich brauchen wir gute Daten, um zu verstehen was in der Pandemie passiert. Dazu gehören z.B. Surveillance-Daten, also das Erfassen der Infektionszahlen, der durchgeführten Impfungen oder Krankenhauseinweisungen. Deutschland ist hier nicht gut aufgestellt. Wir haben aber – auch weltweit – ein Ungleichgewicht zwischen der intensiven Forschung an insbesondere pharmakologischen Therapien, der klinischen Forschung also, und der Forschung zu sogenannten nicht-pharmakologischen Maßnahmen wie z.B. Masken oder Kontaktbeschränkungen im öffentlichen Raum. Solche Daten sollten jetzt Priorität haben. Zudem haben wir global gesehen auch ein Ungleichgewicht im Hinblick auf die Gerechtigkeit der Forschungsaktivitäten weltweit. In weniger wohlhabenden Ländern findet wenig Forschung statt, und entsprechend schlecht ist dort die spezifische Datengrundlage.

In den letzten beiden Jahren schlug die Stunde der Expertinnen und Experten, die uns in abendlichen Talkshows die Pandemie erklären. Für ihren Umgang mit der oft unsicheren Evidenz geraten sie auch öfter in die Kritik. Zurecht?

Oft entsteht leider eine Gegenüberstellung, fast Konfrontation, von Experte und Evidenz, die ich sehr unglücklich finde. Für mich sind Expertinnen und Experten zentral wichtig, um Evidenz zu interpretieren und in Empfehlungen umzusetzen. Den Prozess der dafür nötigen Evidenzinterpretation und das Abwägen der Handlungsoptionen muss jemand machen, der oder die das Problem und den Kontext auch versteht. Das geht nicht ohne Expertengremien. Diese Gremien sollten aber unbedingt evidenzbasiert arbeiten. Empfehlungen in der Pandemie sollten auf der Basis der verfügbaren Evidenz entwickelt werden, und nicht auf der Basis persönlicher Meinungen. Dass dies nicht immer der Fall, hat in meinen Augen das anfangs große Vertrauen der Menschen in die Wissenschaft geschwächt.

Worin liegen die größten Fehler der Wissenschaft in der Pandemie?

Dem Wissenschaftssystem als Ganzes ist es nicht gelungen, Daten, Studien und Antworten in der Geschwindigkeit zu liefern, die gefordert wurde. Wer das Gesundheitssystem stärken will, der muss auch das Wissenschaftssystem stärken. Das ist nicht so gut gelaufen. Am Anfang hat man gesagt, die Wissenschaft kann noch nichts wissen. Aber nach drei Jahren denkt man, jetzt sollten die wichtigsten Fragen beantwortet sein. Dem ist leider nicht so.
Auch war es unglücklich, dass sehr unterschiedliche, teils widersprüchliche Botschaften aus der Wissenschaft heraus gesendet wurden. Solche für die Wissenschaft selbst sehr wichtigen Diskurse in Talk-Shows auszutragen, führt zwangsläufig zu Verwirrung und irgendwann auch zum Vertrauensverlust. Zum Teil ist es ja nicht nur so, dass A etwas anderes sagt als B, sondern auch dass A heute etwas anderes sagt als gestern. Das mag im Einzelfall gut begründet sein, verwirrt die Menschen aber natürlich.

Die Unkenntnis vieler Menschen, wie Wissenschaft funktioniert, gepaart mit einem fehlendem Verständnis dafür, dass Wissenschaft ein fortschreitender, kumulativer Prozess ist, in dem Unsicherheit stets berücksichtigt werden muss, das ist eine äußerst ungünstige Gemengelage. Letztlich ist das der Nährboden, auf dem die vielen Falschinformationen und die bewusste Irreführung gedeihen, die die Pandemiebekämpfung so erschweren. Eine wichtige Lehre der Pandemie ist daher, dass wir die Gesundheitskompetenz der Bevölkerung viel stärker fördern müssen – eigentlich eine ganz alte Forderung, die nun aber aktueller ist, denn je.

Wie gefällt Ihnen dieser Artikel?

Klicken Sie auf einen Stern, um den Artikel zu bewerten.

Durchschnittsbewertung: 4.5 / 5. Anzahl an Bewertungen: 11

Bisher keine Bewertungen. Seien Sie die/der Erste!

„Evidenz gibt es immer!“ – Interview mit Jörg Meerpohl