Unter „statistischer Heterogenität“ oder einfach „Heterogenität“ versteht man in Metaanalysen die Unterschiedlichkeit der Behandlungseffekte zwischen den eingeschlossenen Studien. Es ist wichtig, die Heterogenität in einer Metaanalyse einzuschätzen. Viele Autor*innen geben hierfür den Parameter I² an. Hier erklären wir, warum das problematisch sein kann und weshalb man das Prädiktionsintervall vorziehen sollte.
Eine Metaanalyse ist die quantitative Zusammenfassung der Ergebnisse mehrerer Einzelstudien mit einer vergleichbaren Fragestellung. Sie wird in vielen systematischen Reviews, z.B. zum Nutzen und Schaden von neuen Therapien, durchgeführt. Dabei gehen wir oft davon aus, dass der „wahre“ Therapieeffekt sich zwischen den Studien leicht unterscheidet (dann kommt bei der Metaanalyse das sogenannten Random-Effects Modell zum Einsatz). Dies ist ganz normal, wenn man Studien aus der Literatur zusammenfasst, da sie alle kleine Unterschiede in der Population, Behandlung oder Vergleichsgruppe aufweisen. Diese klinischen Unterschiede zeigen sich dann in der sogenannten „statistischen Heterogenität“. Sie ist auch gemeint, wenn einfach nur von „Heterogenität“ die Rede ist. Bei sehr starker Heterogenität, also starken Unterschieden der Behandlungseffekte zwischen den Studien, ist es wichtig, den möglichen Ursachen auf den Grund zu gehen.
Heterogenität in Metaanalysen
Die (statistische) Heterogenität lässt sich in drei Kategorien einteilen:
Die klinische Heterogenität entsteht durch Unterschiede der Teilnehmenden, der untersuchten Intervention, der Art des Vergleichs und den Endpunkten. Die einzelnen Studien untersuchen zum Beispiel ein Medikament in verschiedenen Verabreichungsformen oder Dosen oder vergleichen mit verschiedenen Kontrollinterventionen (z.B. Placebo oder einem anderen Medikament).
Methodische Heterogenität entsteht durch Unterschiede im Studiendesign, Messinstrumenten und dem Risiko für Verzerrungen (engl. Risk of Bias), das durch die unterschiedliche Planung und Qualität der Studien entstehen kann.
Außerdem gibt es zufällige Schwankungen, die bei jeder Messung vorliegen und daher auch zwischen ganzen Studien.
Die Gesamtheterogenität beinhaltet alle drei Formen. Im Folgenden wird die Kombination aus klinischer und methodischer Heterogenität als „wahre Heterogenität“ bezeichnet, da hier erkennbare Gründe für die Unterschiede zwischen den Studien angenommen bzw. festgestellt werden können.
Was ist I² ?
Zur Berechnung der Kenngröße I² setzt man die „wahre Heterogenität“ (tau² ) ins Verhältnis zur gesamten beobachteten Heterogenität. I² gibt also den Anteil (in Prozent) der „wahren Heterogenität“ an der Gesamtheterogenität an. Es ist also ein relatives Maß, das nicht direkt ausdrückt, ob die „wahre Heterogenität“ im konkreten Kontext bedeutsam ist. Vielleicht haben Sie schon einmal im Zusammenhang mit einer Metaanalyse gelesen, dass der I²-Wert bei 80% lag und folglich eine hohe Heterogenität festgestellt wurde. Diese Interpretation ist nicht richtig. Man kann lediglich sagen, dass 80% der Gesamtheterogenität auf „wahre Heterogenität“ zurückzuführen sind.
Bedeutung von I² – eine Analogie
Sie gehen mit einer befreundeten Person in ein Restaurant. Nach dem gemeinsamen Essen fragen Sie nach der Rechnung und es stellt sich die Frage, wer welchen Anteil daran zahlt. Ihre Begleitung hat deutlich mehr gegessen und erklärt sich freundlicherweise bereit, 75 % der Rechnung zu übernehmen. Sie zahlen somit 25%. Nun haben Sie beide den Anteil an der Gesamtrechnung festgelegt, den Sie zahlen müssen. Den genauen Betrag in Euro kennen Sie aber erst, wenn Sie die Rechnung erhalten. Die Prozentzahl entspricht der Bedeutung von I²: Sie kennen den Anteil, aber nicht das absolute Ausmaß.
Was ist das Prädiktionsintervall ?
Das Prädiktionsintervall gibt den Wahrscheinlichkeitsbereich an, in dem in einer zukünftigen Studie der Behandlungseffekt zu erwarten wäre – sofern sie vergleichbar mit den Studien ist, die in der Metaanalyse berücksichtigt wurden. Wenn das Prädiktionsintervall den Nulleffekt einschließt, besteht die Möglichkeit, dass die untersuchte Intervention in einer solchen hypothetischen Studie sowohl besser als auch schlechter als die Kontrollintervention abschneidet. Eine zukünftige vergleichbare Studie könnte also sowohl einen größeren Nutzen, als auch einen gleichen oder kleineren Nutzen als eine Vergleichsbehandlung oder Placebo feststellen. In anderen Worten: Ein 95%-Prädiktionsintervall gibt den Bereich an, in dem 95% aller Effekte in vergleichbaren Studien liegen. Je breiter das Prädiktionsintervall ist, desto größer die Heterogenität in der Metaanalyse und desto größer somit die Variabilität des Behandlungseffekts.
Prädiktionsintervall – ein Beispiel
Ein Cochrane Review untersuchte, inwiefern die Gabe von Zink (in verschiedenen Verabreichungsformen) sich auf die Dauer von Erkältungen auswirkt. Der gepoolte Effektschätzer für die durchschnittliche Krankheitsdauer war -2,37 Tage, d.h. in der Zink-Gruppe waren Erkältungen um 2,37 Tage kürzer als in der Placebogruppe. Das 95%-Prädiktionsintervall gibt an, dass die Zinkgabe sowohl zu einer Reduktion der Erkältungsdauer um 8,92 Tage als auch zu einer Erhöhung um 4,17 Tage führen kann (im Vergleich zur Einnahme eines Placebos). Jetzt nehmen wir an, es gäbe eine Studie, die nach Erstellung der Metaanalyse durchgeführt wird und mit den dort eingeschlossenen Studien vergleichbar ist. Basierend auf den vorliegenden Daten kann angenommen werden, dass der Behandlungseffekt dieser Studie im Intervall zwischen diesen beiden Zahlen liegt. Dieser Wahrscheinlichkeitsbereich deutet darauf hin, dass es in einzelnen Studien sowohl möglich ist, dass Zink die Erkältungsdauer deutlich verkürzt als auch verlängert.

Heterogenität beschreiben: Vor- und Nachteile des Prädiktionsintervalls
Das Prädiktionsintervall wird in der gleichen Einheit wie der gepoolte Effektschätzer angegeben (im Beispiel: Tage). Das macht es verständlich und leicht zu interpretieren. Man erhält Informationen über das Ausmaß der Heterogenität und dessen potenzielle Auswirkungen auf den Therapieeffekt.
Allerdings kann die Berechnung des Prädiktionsintervalls bei geringer Studienanzahl zu unpräzisen Ergebnissen führen. Als Richtschnur sollte man es erst dann berechnen, wenn mindestens fünf Studien in die Metaanalyse eingeschlosssen wurden.
Um das Prädiktionsintervall zu berechnen, benötigt man den Schätzwert tau², der die „wahre Heterogenität“ angibt. Beträgt dieser Wert null, sollte man auf die Berechnung des Prädiktionsintervalls verzichten, da man dann ja davon ausgeht, dass keine Streuung der Studieneffekte vorliegt. Weiter ist zu beachten, dass sich Prädiktionsintervalle nur auf zukünftige Studien beziehen, die ähnliche Eigenschaften wie die eingeschlossenen haben.
Merke:
Es kann sinnvoll sein, in einer Metaanalyse ein Prädiktionsintervall zu berechnen und anzugeben, …
… um einzuschätzen, ob die Heterogenität klinisch bedeutsam ist,
… wenn mindestens fünf Studien kombiniert werden,
… wenn der geschätzte „wahre“ Wert für die Heterogenität nicht null beträgt.
Fazit
Um die Unterschiedlichkeit von Studien hinsichtlich ihrer Behandlungseffekte in einer Metaanalyse zu beschreiben, ist es wichtig, das Ausmaß der Heterogenität zu erfassen. Die Kenngröße I² ist dafür nicht geeignet, da sie nur den Anteil der „wahren Heterogenität“ an der gesamten Heterogenität wiedergibt. Das Prädiktionsintervall bietet jedoch eine wertvolle Zusatzinformationen, indem es den Wahrscheinlichkeitsbereich für den (wahren) Behandlungseffekt in einer zukünftigen, vergleichbaren Studie angibt.
Sie wollen mehr über Metaanalysen wissen? Dann schauen Sie beim Workshop-Angebot von Cochrane Deutschland und Cochrane Österreich vorbei.
Text: Franziska Halter, Psychologin (M.Sc.)
Quellen:
Deeks JJ HJ, Altman DG, McKenzie JE, Veroniki AA. Chapter 10: Analysing data and undertaking meta-analyses [last updated November 2024]. In: Higgins JPT TJ, Chandler J, Cumpston M, Li T, Page MJ, Welch VA, editor. Cochrane Handbook for Systematic Reviews of Interventions version 6.5 ed: Cochrane; 2024. Available from www.training.cochrane.org/handbook.
Common Mistakes in Meta-Analysis And How to Avoid Them Michael Borenstein Biostat, Inc., New
Jersey, USA Biostat, Inc
Lunch & Learn der Cochrane Deutschland Stiftung. Metaanalysen: Heterogenität; vom 20.09.2022
Nault D, Machingo TA, Shipper AG, Antiporta DA, Hamel C, Nourouzpour S, Konstantinidis M, Phillips E, Lipski EA, Wieland LS. Zinc for prevention and treatment of the common cold. Cochrane Database of Systematic Reviews 2024, Issue 5. Art. No.: CD014914. DOI: 10.1002/14651858.CD014914.pub2. Accessed 29 April 2025.

Text: Franziska Halter, Psychologin (M.Sc.)