beitragsbild Keyconcept 2.14

2.14 Wenn der „Mittelwert“ kein Mittel zur Erklärung der Ergebnisse ist

Um die Ergebnisse klinischer Studien zu kommunizieren, nutzt man oft Mittelwerte. Diese können jedoch leicht in die Irre führen, wie diese Folge unserer „Schlüsselkonzepte“ zeigt.

Dies ist der 26. Beitrag einer Blogserie zu „Schlüsselkonzepten zur besseren Bewertung von Aussagen zu Behandlungen“, die im Rahmen des Projektes Informed Health Choices erarbeitet wurden. Jeder der insgesamt 36 Blogbeiträge befasst sich mit einem Schlüsselkonzept, das dabei hilft, Aussagen zu Wirkungen von Behandlungen besser verstehen und einordnen zu können.

1. Der Mittelwert sagt nichts über die Verteilung der Einzelergebnisse aus

Betrachten wir als Beispiel die Durchschnittsgröße von Schülern in drei Schulklassen. Diese ist in den Klassen A, B und C in der folgenden Abbildung zwar gleich, doch die Verteilung der Größen der einzelnen Schüler ist jeweils sehr unterschiedlich.

Grafik Klassen

Dies gilt es auch für Durchschnittswerte von Behandlungsergebnissen zu bedenken. Es ist sehr unwahrscheinlich, dass eine Behandlung bei sämtlichen Patienten annähernd gleich wirkt. Wie stark und in welchen Mustern die Wirkung zwischen einzelnen Patienten einer Behandlungsgruppe variiert, kann ein wichtiges Ergebnis einer klinischen Studie sein, das sich am Mittelwert allein nicht ablesen lässt.

2. Die Verteilung der Ergebnisse kann ungleichmäßig sein

Im oben stehenden Beispiel der Durchschnittsgröße der Schüler von Schulklasse C sind die Ergebnisse in zwei in sich homogene Untergruppen verteilt. Die eine liegt deutlich oberhalb, die andere unterhalb des Durchschnittswertes (mit anderen Worten, jeweils drei der sechs Schüler sind gleich groß). Auch die Größenverteilung in den Klassen A und B ist nicht besonders realistisch. In real existierenden Schulklassen gibt es zum Beispiel oft einzelne Schüler, die erheblich größer oder kleiner als die anderen sind. Solche „Ausreißer“ können sich stark auf die Durchschnittsgröße der gesamten Klasse auswirken.

In einer klinischen Studie könnte eine solche Situation etwa so aussehen: Patienten werden gebeten, ihre Schmerzen nach einer Behandlung auf einer Skala von 0-100 einzustufen. Die Ergebnisse fallen folgendermaßen aus:

Behandlung A: Bei 99 Patienten haben sich die Schmerzen um 10 Punkte gebessert; bei 1 Person besserten sich die Schmerzen um 50 Punkte.

Behandlung B: Bei 99 Patienten haben sich die Schmerzen ebenfalls um 10 Punkte gebessert; bei 1 Person verschlimmerten sie sich dagegen um 50 Punkte.

Im Durchschnitt beträgt die Verbesserung in Gruppe A 10,4 Punkte und in Gruppe B 9,4 Punkte. Auf Basis dieser Durchschnittswerte schneidet die Behandlung bei Gruppe A besser ab, dabei waren in Wirklichkeit für 99 Prozent der Personen beide Behandlungen gleichermaßen wirksam.

Ebenso können zwei Gruppen das gleiche Durchschnittsergebnis aufweisen, obwohl es den meisten Teilnehmern mit Behandlung A besser geht, es aber nur einem Patienten mit Behandlung B richtig gut geht, wie im folgenden Beispiel gezeigt wird:

In beiden Fällen sind die Mittelwerte irreführend, da einzelne Personen mit extremen Ergebnissen – sogenannte Ausreißer – den Durchschnitt nach oben beziehungsweise nach unten verschieben. Dieser ist daher für die Population insgesamt nicht repräsentativ. Im Umgang mit solchen Ausreißeren ist es sehr wichtig zu überprüfen, ob es sich dabei um einen validen Messwert oder um einen Messfehler handelt. Allerdings darf man solche Ausreißer in Studien nicht einfach nach Gutdünken zu Messfehlern erklären und aus der statistischen Auswertung herauswerfen. Vielmehr sollte man schon von vornherein einen Grenzwert definieren, ab dem Messwerte als vermeintlich fehlerhaft verworfen werden. Eine gängige (wenn auch letztlich willkürliche) Definition wäre beispielsweise, Einzelwerte, die sich mehr als 2,5 Standardabweichungen vom Mittelwert, als Ausreißer zu behandeln. Der Umgang mit Ausreißern ist allerdings eine eigene, ziemlich komplexe Disziplin der Statistik.

3. Der Mittelwert zeigt nicht, wie viele Personen eine klinisch relevante Verbesserung erfahren haben

Der Durchschnittswert reicht oft nicht aus, um eine Aussage darüber machen zu können, in wie weit ein Patient eine wirklich relevante Verbesserung erfährt. Diese Veränderung wird auch als minimaler wichtiger Unterschied bezeichnet.

Wenn man im folgenden Beispiel den Durchschnitt betrachtet, scheint es den Teilnehmern von Gruppe C (durchschnittliche Verbesserung = 5) besser als denen von Gruppe D (durchschnittliche Verbesserung = 4) zu gehen.

Wenn jedoch eine Veränderung um mindestens 7 Punkte erforderlich ist, damit ein Patient diese überhaupt bemerkt, hat kein Patient in Gruppe C eine merkliche Veränderung erfahren, jedoch 2 Personen in Gruppe D. Im Hinblick auf den Anteil von Patienten, die eine relevante Verbesserung erfahren haben, schneidet Gruppe D also besser als Gruppe C ab.

Der Durchschnitt ist in diesem Beispiel irreführend, da er nicht wiederspiegelt, welche Patienten eine relevante Veränderung erfahren haben. Wenn der Durchschnitt in einer Gruppe höher ist, bedeutet das also nicht notwendigerweise, dass die Behandlung bei dieser Gruppe wirksamer war.

Zusammenfassung:

Am Mittelwert als Kennwert für die zentrale Tendenz einer Verteilung führt in der Statistik kaum ein Weg vorbei. Doch es gilt zu bedenken, dass Mittelwerte auf mehrere Weisen irreführend sein können. Ist die Verteilung der Ergebnisse ungleichmäßig, kann der Durchschnittswert durch extreme „Ausreißer“ beeinflusst werden. Das kann dazu führen, dass eine Behandlung mehr oder weniger wirksam erscheint, als sie es im Gros der Fälle tatsächlich ist. Darüber hinaus bietet uns der Durchschnitt keine Informationen dahingehend, wie viele Patienten eine klinisch bedeutende Verbesserung erfahren haben.

Was bedeutet das in der Praxis? Wenn Sie zum Beispiel Forschungsberichte lesen, sollten Sie nicht allein auf die Mittelwerte zweier Behandlungsgruppen vertrauen, um zu entscheiden, welcher Gruppe es besser geht. Suchen Sie nach weiteren Informationen dazu, wie die Ergebnisse verteilt sind und was eine relevante Veränderung in der Messskala darstellt.

Anmerkung: Aus Gründen der besseren Lesbarkeit wird auf die gleichzeitige Verwendung männlicher und weiblicher Sprachformen verzichtet. Sämtliche Personenbezeichnungen gelten gleichermaßen für alle Geschlechter.

Übergewicht : Darf’s auch ein bisschen mehr sein?

Jedes Kilo zu viel verkürze das Leben, sagen die einen. Andere dagegen glauben, dass ein bisschen mehr auf den Rippen sogar nützen könnte. In unserer Blogserie zu „Ernährung und kardiovaskuläre Erkrankungen“ geht es in diesem sechsten Artikel um den Forscher-Streit über den Zusammenhang zwischen Body Mass Index (BMI) und Sterblichkeit. Das Thema ist ein Lehrstück darüber, wie schwer es sein kann, die Ergebnisse großer Beobachtungsstudien zu deuten.

„Ich bin nicht dick! Nein, mein Herr! Nur kräftig gebaut!“ So wie dem Comic-Gallier Obelix geht es vielen Menschen: Dicksein ist Ansichtssache. Manche finden sich trotz oder gerade wegen des Rettungsrings um den Bauch gut so, wie sie sind. Andere hadern mit jedem vermeintlich überzähligen Pfund und stürmen gerade zum Jahresanfang voller guter Vorsätze auf die Joggingstrecke oder konsultieren Diätratgeber.

Als halbwegs objektives und unkompliziertes Maß für die Körpermasse hat sich der Body Mass Index (BMI) durchgesetzt. Er berechnet sich aus dem Körpergewicht in Kilogramm geteilt durch das Quadrat der Körpergröße in Metern. Der Weltgesundheitsorganisation WHO zufolge entsprechen Werte zwischen 18,5 und 24,9 Normalgewicht, mit 1,80 Meter sollte man (oder Frau) demnach zwischen 60 und 81 Kilo wiegen. Niedrigere Werte gelten als Untergewicht, von Übergewicht spricht man ab einem BMI von 25 als Übergewicht und von Fettleibigkeit oder Adipositas ab einem BMI von 30. Sie beginnt für den 1,80-Meter-Mensch bei einem Gewicht von 97 Kilo.

So bemessen sind offiziellen Zahlen des Robert-Koch-Instituts zufolge zwei Drittel der Männer (67 %) und gut die Hälfte der Frauen (53 %) in Deutschland übergewichtig. Knapp ein Viertel der Erwachsenen beider Geschlechter ist fettleibig. Österreicher und Schweizer sind im Schnitt etwas schlanker, in beiden Ländern liegt der Anteil der Übergewichtigen und Adipösen bei gut 40 Prozent.

Die Ursache für Übergewicht und Adipositas ist in den meisten Fällen eine Kombination aus ungünstigen Ernährungsgewohnheiten und Bewegungsmangel. Sie führt zu einem Überschuss in der Kalorienbilanz, den der Körper in Form von Fettgewebe einlagert (siehe auch den Artikel Ernährung und kardiovaskuläre Erkrankungen – eine neue Serie auf Wissen Was Wirkt)

Dabei ist Körperfett per se weder gut noch böse. Ein bisschen Speck als Isolierschicht und Speicherstoff für schlechtere Zeiten gehört von Natur aus zu einem gesunden, wohlgenährten Körper. Wer jedoch allzu große Mengen davon mit sich herumträgt, bekommt Probleme. Und das nicht nur in Form der sozialen und ästhetischen Erwartungen unserer Gesellschaft, unter denen viele übergewichtige Menschen leiden. Wenn aber schon die Treppe in den ersten Stock eine bergsteigerische Herausforderung darstellt, wird Dicksein auch ganz real zur Quälerei.

Vor allem jedoch spielt Fettleibigkeit die erste Geige im „tödlichen Quartett“ des metabolischen Syndroms, zu dem sich noch Bluthochdruck, erhöhte Blutfette und Insulinresistenz gesellen. Diese Symptomkombination gilt neben dem Rauchen als wichtigster Risikofaktor für Herz-Kreislauferkrankungen und andere Zivilisationskrankheiten wie Diabetes oder Krebs und damit als eine der Hauptursachen für vorzeitige und vermeidbare Todesfälle in Industriestaaten.

Über welche biologischen Mechanismen das überschüssige Fett die anderen schädlichen Veränderungen nach sich zieht, ist nicht vollständig geklärt. „Fettgewebe ist jedenfalls nicht nur ein passiver Kalorienspeicher“, sagt Michael Leitzmann, Direktor des Instituts für Epidemiologie und Präventivmedizin an der Universität Regensburg: „Vor allem das sogenannte Viszeralfett im Bauchraum produziert eine Vielzahl von Hormonen und greift damit aktiv in den Stoffwechsel ein. Hat man zu viel davon, so verschiebt sich das Gleichgewicht dieser Stoffe auf Dauer offenbar in Richtung Krankheit.“

Echte Fettleibigkeit ist also ein erheblicher Risikofaktor für potentiell tödliche Krankheiten. Aber wie steht es um die große Zahl der Übergewichtigen, die nur ein paar Kilos zu viel mit sich herumtragen? Müssen auch diese Menschen schädliche Auswirkungen ihrer Fettpolster fürchten? Oder gilt für sie vielmehr der Spruch „ein bisschen rund ist gesund“?

Das Adipositas-Paradoxon – Realität oder nur „ein Haufen Müll“?

Über diese Frage ist unter Wissenschaftlern in den letzten Jahren ein erstaunlich erbitterter Streit entbrannt. Den Anfang machte 2005 eine Studie von Wissenschaftlern um Katherine Flegal von der amerikanischen Gesundheitsbehörde CDC im Fachblatt JAMA. Flegal nutzte Daten des National Health and Nutrition Examination Survey, einer seit 1971 mehrfach aufgelegten Kohortenstudie, für die Tausende repräsentativ ausgewählte Amerikaner über Jahre hinweg immer wieder nach ihrem Lebensstil befragt und medizinisch untersucht wurden. Für Fettleibige mit einem BMI über 30 hatte die Analyse erwartungsgemäß schlechte Nachrichten: Auf das Jahr 2000 und die gesamte Bevölkerung der Vereinigten Staaten (damals gut 280 Millionen) hochgerechnet, waren demnach unter Fettleibigen im Vergleich zu Normalgewichtigen rund 112.000 zusätzliche Todesfälle aufgetreten. Auch Untergewichtige hatten wie erwartet eine leicht erhöhte Sterblichkeit. Doch für Übergewichtige (BMI zwischen 25 und 30) zeigte sich unerwartet der umgekehrte Effekt: Sie hatten ein deutlich geringeres Sterberisiko als ihre normalgewichtigen Mitmenschen.

Diese Ergebnisse legen nahe, dass „ein bisschen rund“ tatsächlich gesund ist und offenbar mit der Definition von „Normalgewicht“ etwas nicht stimmt. Flegal war durchaus nicht die Erste, die auf dieses sogenannte Adipositas-Paradoxon stieß. Es war bereits aus einer Reihe von Studien bekannt, etwa zu koronarer Herzkrankheit, Blut-Hochdruck, Diabetes oder chronischem Nierenversagen. Auch sie kamen zu dem Schluss, dass übergewichtige und zum Teil selbst leicht adipöse Patienten dieser Leiden offenbar bessere Überlebenschancen haben, als Normalgewichtige. Flegal hatte dies nun auch für das wichtige Maß der Gesamt-Sterblichkeit („all-cause-mortality“) gezeigt. 2013 legte sie dann im Fachblatt JAMA mit einer systematischen Übersichtsarbeit samt Metaanalyse nach, welche auf Daten aus fast hundert Studien mit annähernd drei Millionen Teilnehmern basierte. Auch diesmal schnitten übergewichtige Teilnehmer am besten ab – ihr Sterberisiko lag sechs Prozent unter jenem von Normalgewichtigen.

Viele ihrer Kollegen aus der Ernährungswissenschaft wollten davon allerdings nichts hören. Zu Flegals entschiedensten Kritikern zählt Walter Willett von der Harvard Medical School in Boston, Amerikas wohl prominentester Ernährungsmediziner. Sein Kommentar in einem Radiointerview zu Flegals Studie von 2013: „Das ist ein Haufen Müll, niemand sollte seine Zeit damit vergeuden, das zu lesen.“

Von Rauchern und dünnen Kranken

Starke Worte. Willett stößt sich vor allem daran, dass Flegal zwei Störfaktoren, sogenannte Confounder, nicht angemessen berücksichtigt habe, welche die Statistik zugunsten der Übergewichtigen verzerren. Störenfriede Nummer eins sind Raucher. Weil Nikotin den Appetit zügelt macht rauchen tatsächlich schlank. Gleichzeitig ist ihre Sterblichkeit wegen der zahlreichen Gesundheitsgefahren des Rauchens deutlich erhöht. Dadurch verzerren Raucher die Statistik zuungunsten des Normalgewichts, obwohl ihr erhöhtes Sterberisiko ursächlich nichts mit ihrem schlankeren Körper zu tun hat.

Ganz ähnlich ist dies mit den „dünnen Kranken“: Schon lange vor der Erstdiagnose können sich ernsthafte Krankheiten wie Krebs als schleichender Gewichtsverlust bemerkbar machen. Die in Studien offiziell noch als gesund eingestuften Betroffenen solcher versteckten Frühsymptome sind dann also schlank, weil krank, und nicht anders herum – reverse Kausalität nennen Epidemiologen einen solchen Effekt. Sowohl dünne Raucher als auch dünne Kranke führen also zu vermehrten Todesfällen unter Normalgewichtigen und verzerren dadurch das Gesamtbild.

Solche Confounder sind der große Knackpunkt von Beobachtungsstudien wie dem National Health and Nutrition Examination Survey, weil sich ihre verzerrenden Effekte nur schwer von echten Ursache-Wirkungszusammenhängen unterscheiden lassen. Mit Lehrbuch-Confoundern wie Alter, Geschlecht, Bildung und Einkommen lässt sich noch umgehen, subtilere Störgrößen dagegen lassen sich oft nur schwer identifizieren und noch schwerer von echten Effekten entwirren.

Die bessere Alternative wären im Prinzip randomisierte, kontrolliere Studien (RCTs). In solchen Studien unterscheiden sich die Angehörigen von Test- und Kontrollgruppe im Idealfall nur in dem zu untersuchenden Merkmal (in diesem Fall der BMI-Kategorie) und sind sich ansonsten möglichst ähnlich. Für den Zusammenhang von BMI und Sterblichkeit ist dies jedoch kaum machbar, weil man Studienteilnehmer schon aus ethischen Gründen kaum dazu verdonnern kann, sich im Namen der Wissenschaft dicke Fettpolster anzufressen.

Beobachtungsstudien sind daher für viele epidemiologische Fragen das Beste, was wir haben. Um die störenden Effekte der Confounder möglichst klein zu halten, gibt es verschiedene Möglichkeiten. Ein Weg ist, die Daten bestimmter Probanden, die das Ergebnis verzerren würden (zum Beispiel jene von Rauchern) von vornherein aus der Auswertung auszuschließen. Alternativ kann man versuchen, Confounder durch statistische Korrekturfaktoren zu kompensieren. Nur, welcher dieser beiden Wege ist der bessere? Um eben diese Frage geht es im erbitterten Forscherstreit zwischen den Lagern von Flegal und Willet.

Flegal setzt auf Korrekturfaktoren, die in der Statistik beispielsweise den Effekt des Rauchens ausgleichen sollen. Doch das ist leichter gesagt als getan: Wie viel raucht der einzelne Studienteilnehmer, wie tief inhaliert er, wie lange muss jemand das Rauchen aufgegeben haben, um nicht mehr als Raucher zu gelten? Weil Studiendaten auf all diese Fargen meist keine genauen Antworten geben können, basieren Korrekturverfahren auf mehr oder minder gewagten Mutmaßungen.

Wie repräsentativ ist eine Studie, wenn mehr als die Hälfte aller Datensätze von vornherein rausfliegen?

Viele Forscher, darunter auch der inzwischen emeritierte Walter Willett und sein Nachfolger in Harvard, Frank Hu, setzen stattdessen auf eine anderen Umgang mit Confoundern, nämlich eine strenge Auslese der in der Analyse berücksichtigten Probanden. Am Ende bleiben im Idealfall nur noch Studienteilnehmer übrig, die wirklich repräsentativ für den zu untersuchenden Zusammenhang sind. Das Problem mit diesem Ansatz: Er kann zum Ausschluss eines Großteils der Probanden führen.

So geschehen in der 2016 in The Lancet publizierten Studie der Global BMI Mortality Collaboration (GBMC) , an der auch Willett und Hu beteiligt waren. In ihrer Metaanalyse werteten die Forscher 239 Beobachtungsstudien aus aller Welt aus, nutzen jedoch nur die Daten von streng selektierten Teilnehmern. Berücksichtigt wurde nur, wer niemals geraucht hatte, zu Studienbeginn gesund war und danach wenigstens fünf Jahre überlebt hatte. Auf diee Weise blieben allerdings von den ursprünglich fast elf Millionen Teilnehmern weniger als vier Millionen übrig. Unter den handverlesenen Probanden fehlte vom Adipositas-Paradoxon denn auch jede Spur. Das geringste Sterberisiko hatten Normalgewichtige mit einem BMI zwischen 20 und 25. Für Übergewichtige mit einem BMI zwischen 25 und 27,5 fand die Studie ein im Vergleich dazu um sieben Prozent erhöhtes Sterberisiko, für einen BMI zwischen 27,5 und 30 war die Sterblichkeit bereits um 20 Prozent erhöht. Zur Einordnung: Raucher von mehr als 10 Zigaretten am Tag haben gegenüber Nichtrauchern ein doppelt bis dreifach erhöhtes Sterberisiko.

Zwei Studien, die zu weiten Teilen auf demselben Datenfundament stehen und doch zu ganz unterschiedlichen Ergebnissen kommen. Da stellt sich die Frage, welcher der beiden Ansätze der richtige ist: Kommt es auf einen realistischen Bevölkerungsquerschnitt an oder haben streng selektierte Daten die höhere Aussagekraft? Aus der wissenschaftlichen Debatte um diese Frage wurde schnell eine veritable Schlammschlacht zwischen den Lagern von Flegal und Willett, in der sich die Beteiligten gegenseitig der Manipulation und Rosinenpickerei bezichtigen.

Dabei hat das Thema „BMI und Sterblichkeit“ noch andere Streitfragen parat. So ist der BMI als Standardmesslatte für dick oder dünn durchaus umstritten. Er ist zwar einfach und praktisch, ignoriert aber die individuell unterschiedliche Konstitution verschiedener Menschen. So erreichen Bodybuilder ohne ein Gramm Fett zu viel auf den Rippen dank Muskelmasse leicht BMI-Werte von mehr als 30. Und auch unter Normalverbrauchern unterscheidet der BMI nicht zwischen physiologisch aktivem Viszeralfett und relativ harmlosen Unterhautfett. Alternativen wie den Body Shape Index (BSI), in dessen Berechnung auch der Bauchumfang einfließt, haben sich bisher aber noch nicht wirklich durchgesetzt.

Schließlich diskutieren Forscher auch die Idee einer „metabolically healthy obesity“. Unter Fettleibigen finden sich nämlich durchaus auch solche ohne metabolisches Syndrom. Ob diese „gesunden Dicken“ tatsächlich auf Dauer rund und gesund bleiben oder ob sie früher oder später doch noch erkranken, ist allerdings die nächste Streitfrage.

Fragen Sie ihren Arzt!

Sich als Laie in diesem Gefecht der Argumente ein Bild zu machen fällt nicht leicht. Zudem gilt wie immer, dass sich Erkenntnisse aus epidemiologischen Daten nicht automatisch auf den Einzelfall übertragen lassen.

Liegt der BMI deutlich über 25 hält es Präventivmediziner Michael Leitzmann aber schon für sinnvoll, sich Gedanken zu machen. „Für den ersten Schritt gilt die vielleicht etwas banale, aber fast alternativlose Empfehlung: Sprechen Sie mit ihrem Arzt darüber.“ Eine gründliche Anamnese und weitere Untersuchungen wie ein Bluttest helfen, gemeinsam mit dem Arzt den individuellen Handlungsbedarf einzuschätzen und gegebenenfalls den aussichtsreichsten Weg zum Abnehmen einzuschlagen. Der führt in den meisten Fällen über eine Ernährungsumstellung und mehr Bewegung. Es gibt gute Evidenz dafür, dass diese Kombination tatsächlich zu einer Gewichtsreduktion führt – ganz gleich, ob man nun zum Jahresbeginn oder sonst wann damit anfängt.

Text: Georg Rüschemeyer

Bild IHC Key Concept 2.13

2.13 Angaben zu relativen Risiken können irreführend sein

Wir leben heute im Zeitalter von „Big Data“, mit Zugriff auf so viel mehr Informationen als alle unsere Vorfahren es jemals hatten. Mit einer kurzen Google-Suche kann man zu fast allem eine Statistik finden – aber kann man ihr auch vertrauen? Wir müssen sehr umsichtig sein, wenn wir die vielen Daten, mit denen wir konfrontiert werden, auch richtig interpretieren wollen.

Dies ist der 25. Beitrag einer Blogserie zu „Schlüsselkonzepten zur besseren Bewertung von Aussagen zu Behandlungen“, die im Rahmen des Projektes Informed Health Choices erarbeitet wurden. Jeder der insgesamt 36 Blogbeiträge befasst sich mit einem Schlüsselkonzept, die wichtig dafür sind, Aussagen zu Wirkungen von Behandlungen besser verstehen und einordnen zu können. 

Statistische Behauptungen in den Medien

Beim Zeitungslesen könnte man den Eindruck bekommen, dass so ziemlich alles irgendwie krebserregend ist. Die Daily Mail, ein britisches Boulevardblatt, berichtet beispielsweise, dass Dinge wie Deodorants, Suppen, Sonnencreme und sogar Oralsex das Risiko für bestimmte Krebsarten erhöhen können[1]. Viele dieser Behauptungen mögen durchaus auf guter wissenschaftlicher Evidenz über statistische Risikofaktoren beruhen. Doch bevor wir voreilige Schlüsse ziehen und Anderen entsprechende Handlungsempfehlungen geben, müssen wir uns hier die Frage stellen, bis zu welchem Grad solche Aussagen verlässlich sind. Es ist eminent wichtig, die Fakten zu prüfen, und nicht einfach alles, was unsere Facebook-Freunde teilen, als der Weisheit letzter Schluss zu betrachten. Ein wichtiger Vorbehalt gegenüber Schlagzeilen nach dem Schema „X erhöht das Risiko von Y um Z Prozent“ lautet, dass eine statistische Assoziation von X und Y noch lange keinen kausalen Zusammenhang bedeutet. Darüber haben wir bereits in einem früheren Schlüsselkonzept ausführlich gesprochen. Kaum weniger wichtig ist es, Angaben zu Risiken auf ihre Aussagekraft zu prüfen.

Wenn man beispielsweise liest, dass gemäß einer Studie „bei Frauen, die zur Körperhygiene jeden Tag Talkum anwenden, eine um 40% höhere Wahrscheinlichkeit besteht, Eierstockkrebs zu entwickeln“ [2], ist man vielleicht derart verängstigt, dass man dieses Produkt nie wieder anrührt. Aber: Diese Statistik für sich allein genommen hat wenig Aussagekraft. Denn wir wissen nicht:

  • Wie viele Personen Talkum in der Studie anwendeten.
  • Wie viele Personen insgesamt an der Studie teilnahmen.
  • Wie viele Frauen in der Untersuchungs- bzw. Kontrollgruppe Eierstockkrebs hatten (Anwenderinnen von Talkum im Vergleich zu Frauen, die es nicht anwendeten).
  • Diese Statistik sagt nichts über viele andere Faktoren aus, die hier eine Rolle spielen könnten. In diesem Beispiel ergab die Studie lediglich, dass nur bei postmenopausalen Frauen ein erhöhtes Risiko bestand, wenn Talkum direkt im Schambereich angewendet wurde. Auch wurde berichtet, dass in der „Talkum-Gruppe“ mehr übergewichtigere Personen waren als in der „Nicht-Talkum-Gruppe“. Dies ist in diesem Fall von besonderer Bedeutung, da Übergewicht ein bekannter Risikofaktor für Eierstockkrebs ist. [3]

Das Problem ist, dass diese Statistik (eine um 40% höhere Wahrscheinlichkeit) ein relatives Risikos [AP1] darstellt. Ein relatives Risiko ist eine Art der Berichterstattung eines Risikos in Prozentsätzen, aber nur in Relation zur Vergleichsgruppe und nicht unter Berücksichtigung der Gesamtzahl der betroffenen Personen oder Krankheitsfälle. Diesen Punkt betont Dr. Jodie Moffat von Cancer Research UK: „Es ist wichtig, darauf hinzuweisen, dass nur sehr wenige Frauen, die Talkum anwenden, jemals Eierstockkrebs entwickeln werden. [2]

Relatives oder absolutes Risiko?

Es gibt viele verschiedene Arten, Risiken zu bestimmen. Das relative Risiko, manchmal auch als Risiko-Verhältnis bezeichnet, stellt den Unterschied zwischen zwei Gruppen einfach dar. Es kann jedoch irreführend sein, da es nicht die ursprüngliche Anzahl der Fälle wiedergibt. Nehmen wir als Beispiel folgende Zahlen einer fiktiven Studie:

  • 100 Teilnehmer wurden mit einem Arzneimittel behandelt; von diesen litt ein Teilnehmer unter einen Herzinfarkt = 1% Risiko für einen Herzinfarkt
  • 100 Teilnehmer wurden mit einem Arzneimittel NICHT behandelt; von diesen erlitten zwei Teilnehmer einen Herzinfarkt = 2% Risiko für einen Herzinfarkt
Tabelle mit Zahlen aus Text

Man könnte vielleicht denken, dass die Differenz von einer Person von Hundert nicht allzu groß ist. Das relative Risiko wird jedoch ermittelt, indem man die 1 % und die 2 % vergleicht. Die resultierende Aussage lautet, dass „Personen, die dieses Arzneimittel nicht einnehmen, ein zweifach höheres Risiko für einen Herzinfarkt haben“, oder umgekehrt, dass „dieses Arzneimittel das Risiko für einen Herzinfarkt um 50% senkt“. Dies kann der Wahrheit entsprechen und in anderen Studien auch bestätigt werden. Dennoch kann es sein, dass dieses Arzneimittel nicht so wirksam ist, wie es scheint; Der Unterschied könnte lediglich zufällig sein. Aus diesem Grund muss der Umstand, dass zwischen den Gruppen nur eine Gesamtdifferenz von 1% bestand, ebenfalls genannt werden – wir bezeichnen dies als die absolute Risikodifferenz.

Number needed to treat

Ein weiteres nützliches Maß, das in der Medizin eingesetzt wird, um Risiken besser einodnen zu können, ist die „Number needed to treat“ (NNT) – also die Anzahl der Personen, die theoretisch behandelt werden müssen, damit eine von ihnen einen Nutzen davon hat.
Im obigen Beispiel betrüge die NNT 100, da ja bereits festgestellt wurde, dass das Arzneimittel an 100 Personen verabreicht werden muss, damit bei einer Person ein Herzinfarkt verhindert wird. Arzneimittel können Nebenwirkungen haben oder sehr kostspielig sein. Wenn also nicht viele Personen einen Nutzen davon haben, ist der Aufwand es zu verabreichen, vielleicht zu hoch.

Weitere Überlegungen

In die Überlegungen muss auch einfließen, wie hoch überhaupt die Wahrscheinlichkeit ist, dass ein bestimmtes Ergebnis eintritt. Man stelle sich beispielsweise ein Arzneimittel vor, dass die Wahrscheinlichkeit dafür, dass man eine bestimmte Krankheit bekommt, um 50% senkt. Das Arzneimittel verursacht jedoch Nebenwirkungen, und das Grundrisiko, die Krankheit überhaupt zu bekommen, liegt bei 2 von 100. In diesem Fall könnte eine Behandlung sinnvoll sein, solange der Nutzen in einem vernünftigen Verhältnis zu den Nebenwirkungen steht. Wenn jedoch das Risiko, die Krankheit überhaupt zu bekommen, nur bei 2 von 10.000 liegt, ist die präventive Behandlung wahrscheinlich nicht sinnvoll, auch wenn die relative Wirkung des Arzneimittels dieselbe ist.

Das relative Risiko kann zur Darstellung der Risikozunahme oder -reduktion von Krankheits- oder Risikofaktoren dienen (wie im Beispiel mit dem Talkum oben). Bei größeren Probandengruppen ist das relative Risiko relativ zuverlässig. Bei der Analyse von Studien mit kleineren Stichprobengrößen oder Studien, die seltenere Krankheiten untersuchen, kann es jedoch leicht einen falschen Eindruck vermitteln. Daher ist es wichtig, alles, was man in Zeitungen oder auch in wissenschaftlichen Fachzeitschriften liest, mit Vorsicht zu genießen, solange man nicht sämtliche Fakten kennt. Es muss sich nicht unbedingt um „Fake News“ handeln, kann aber dennoch irreführend sein.

Das nächste Mal, wenn Sie es mit einem relativen Risiko zu tun haben, fragen Sie sich auch, was das absolute Risiko ist.

Text: Gareth Grant

Übersetzt von:

Redaktion: Cochrane Deutschland

Zum Originaltext

Zu den Quellenangaben

Anmerkung: Aus Gründen der besseren Lesbarkeit wird auf die gleichzeitige Verwendung männlicher und weiblicher Sprachformen verzichtet. Sämtliche Personenbezeichnungen gelten gleichermaßen für alle Geschlechter.

Kein Herz für Nahrungsergänzungsmittel?

„Die richtige Dosis an Vitaminen & Mineralstoffen ist Grundlage für eine gesunde Herzfunktion“ – so oder ähnlich werben derzeit einige Hersteller von Nahrungsergänzungsmitteln (NEMs). In wie weit stimmt das? Und können NEMs den Erhalt unserer Herzgesundheit unterstützen beziehungsweise das Risiko einer Erkrankung reduzieren? Dieser fünfte Artikel unserer „Wissen Was Wirkt“ – Serie zu Ernährung und kardiovaskulären Erkrankungen setzt sich mit der Frage auseinander, ob es Evidenz gibt, dass Vitamin- und Mineralstoffsupplemente Einfluss auf die Entstehung koronarer Herzkrankheiten haben.

Dieser Beitrag vertritt die persönliche Sicht von Dr. Anja Dahten, Ernährungswissenschaftlerin und Mitarbeiterin von Cochrane Deutschland.

Die Aussage, dass Vitamine und Mineralstoffe für eine gesunde Herzfunktion sorgen, stimmt natürlich grundsätzlich, denn unser Organismus kann ohne essentielle Nährstoffe langfristig nicht funktionieren – auch nicht unser Herz. Wenn es allerdings um die Frage geht, ob durch die zusätzliche Zufuhr von Vitaminen und Mineralstoffen in Form von Nahrungsergänzungsmitteln unsere Herzgesundheit verbessert werden kann, wird die Sache deutlich komplexer. Als Ernährungswissenschaftlerin trete ich dem Versprechen, dass NEMs unsere Herzgesundheit verbessern können, sehr kritisch gegenüber. Im Folgenden erkläre ich, warum.

Die Fakten – Welche Wirkungen können wir von einem Nahrungsergänzungsmittel erwarten?

FAKT Nr. 1
NEMs sind definitionsgemäß Lebensmittel und werden rein rechtlich auch so behandelt. Sie durchlaufen kein aufwendiges Zulassungsverfahren (wie Arzneimittel), sondern unterliegen lediglich einer formalen lokalen Registrierungspflicht. Das Produkt darf dann tatsächlich „zeitgleich mit erfolgter Anzeige (…) in den Verkehr gebracht werden.“

Fazit: Der Fakt, dass ein Nahrungsergänzungsmittel registriert wurde, sagt nichts über die Unbedenklichkeit bezüglich seiner Sicherheit und schon gar nicht seiner Wirkung aus.

FAKT Nr. 2
Vielleicht haben Sie sich schon einmal gefragt, warum es nicht mehr so zahlreiche „vielversprechende“ Lebensmittel im Supermarkt gibt, die unsere Gesundheit verbessern und unsere Abwehrkräfte stärken wollen? Seit Ende des Jahres 2012 müssen auf europäischer Ebene alle sogenannten gesundheitsbezogenen Angaben von Lebensmitteln (Health Claims), von der Europäischen Behörde für Lebensmittelsicherheit (EFSA) überprüft und genehmigt worden sein. Dies schließt auch die Sicherheit des Produktes mit ein. Zur Zulassung bedarf es u. a. einer überzeugenden Anzahl klinischer Studien an gesunden Probanden. Die überwiegende Mehrheit aller beantragten Health Claims wurde bisher abgelehnt.

Fazit: Aussagen zu gesundheitsverbessernden Wirkungen durch den Genuss bestimmter Lebensmittel sind derzeit auf EU-Ebene nicht überzeugend belegbar.

FAKT Nr. 3
Die gesundheitsfördernde Wirkung von im Handel erhältlichen NEMs kann laut Verbraucherschutz derzeit nicht lückenlos durch die Behörden geprüft werden.

Fazit: Wir Verbraucher müssen eigenverantwortlich informierte Entscheidungen treffen. Unterstützende Informationen mit Bezug auf aktuelle Untersuchungen finden Sie in Deutschland u. a. beim Bundesinstitut für Risikobewertung (BfR) und auf den Webseiten der unabhängigen Verbraucherzentralen der Bundesländer.

Meine, daraus folgenden Hinweise für die Praxis

  • Seien Sie skeptisch, wenn Ihnen NEMs versprechen, Krankheiten heilen oder lindern zu können – auch wenn sie noch so „herzlich“ wirken. In diesem Fall halten Sie entweder ein nicht zugelassenes Arzneimittel in der Hand, von dem Sie die Nebenwirkungen nicht kennen oder ein nicht geprüftes Nahrungsergänzungsmittel, von dem Sie keine Wirkung erwarten sollten. Beides ist meiner Meinung nach nicht zu empfehlen.
  • Seien Sie kritisch, wenn NEMs Ihnen versprechen, dass sie das Risiko reduzieren können, eine Herz-Erkrankung zu bekommen. Dieser Fakt muss transparent nachgewiesen worden sein.
  • Am plausibelsten ist es, dass ein NEM Nährstoffe enthält, die zum Erhalt der „normalen“ physiologischen Funktionen beitragen.

Dennoch, Aussagen zur gesundheitsfördernden Wirkung von NEMs entsprechen nicht immer dem aktuellen Stand der Forschung, da der Prozess von der Einreichung bis zur Zulassung Jahre dauern kann.

Die Forschung – Wie ist der aktuelle Stand?

Bereits im Mai 2018 warnte die Online-Zeitschrift ärzteblatt.de: „Fast kein Nahrungsergänzungsmittel senkt das Risiko für Herzkrankheiten“. Diese Aussage wurde auf die Ergebnisse einer sehr umfangreichen systematischen Übersichtsarbeit mit Metaanalyse vom Juni 2018 gestützt. Untersucht wurden 179 randomisierte kontrollierte Studien zur Verwendung von verschiedenen Vitaminen und Mineralstoffen, die zwischen Januar 2012 bis Oktober 2017 publiziert wurden. Weder einzelne Komponenten (Vitamin D, Calcium, Vitamin C, Betacarotin und Selen) noch gemischte Multivitaminpräparate zeigten hier einen nachweisbaren Nutzen für die Prävention von Herz-Kreislauf-Erkrankungen, Myokardinfarkten oder Schlaganfällen. Auch generell leben wir wohl mit NEMs nicht länger, denn die Gesamtmortalität blieb sowohl mit als auch ohne NEMs unverändert. Allein Folsäure (mit und ohne Niacin) verringerte in dieser Übersichtsarbeit das Risiko eines Schlaganfalls. Für einen aussagekräftigen Beweis bedarf es jedoch weiterer Studien.

Noch im gleichen Jahr machen sowohl die Deutsche Gesellschaft für Neurologie als auch die Deutsche Schlaganfall-Gesellschaft auf die Ergebnisse einer weiteren umfassenden Metaanalyse aufmerksam. In diese wurden alle relevanten Studien eingeschlossen, die zwischen Januar 1970 und August 2016 publiziert wurden. Die aktuelle Schlussfolgerung im Ärzteblatt war: „Nahrungsergänzungsmittel wie Vitamine und Mineralien können das Risiko nicht vermindern, an einem Hirninfarkt oder einer Herzkrankheit zu sterben“.

Selbst der große Hoffnungsträger Vitamin D enttäuschte: Während sich in einem Cochrane-Review aus dem Jahr 2014 (56 eingeschlossenen Studien; 95,286 Teilnehmende) zumindest „einige Evidenz“ bezüglich der Senkung von Herzinfarkten und Schlaganfällen zeigte, konnte dieses Ergebnis in einer aktuellen, umfangreichen Metaanalyse von 2019 nicht bestätigt werden. Auch nach mehr als einem Jahr zusätzlicher Vitamin D Einnahme, veränderten sich das Risiko für Herzinfarkt und Schlaganfall nicht.

Die Praxis – Glauben statt Wissen?!

Befragt man statista nach aktuellen (ab 2018) Erhebungen zu Umsatzverteilungen von Nahrungsergänzungsmitteln im deutschsprachigen Raum (Deutschland, Österreich, Schweiz), so erhält man die Information, dass laut IQVIA zumindest in Deutschland „rund 2,1 Milliarden Euro mit Nahrungsergänzungsmitteln umgesetzt wurden“. Dabei ist die Tendenz zu den Vorjahren steigend. Von den NEMs entfielen dabei 10 Prozent auf vermeintliche „Herz- und Kreislaufmittel“.

Die oben angeführten aktuellen Forschungsergebnisse weisen darauf hin, dass die aktuelle wissenschaftliche Evidenz den Konsum von NEMs, insbesondere von „Herz- und Kreislaufmitteln“, nicht überzeugend rechtfertigt. Deshalb investiere ich lieber (auch um meinen Neujahrsvorsätzen gerecht zu werden) in einen gesünderen Lebensstil mit mehr Bewegung, aber weniger tierischen Fetten und Zucker. Dieser unterstützt dann auf natürliche Weise meine Herzgesundheit – und kostet nicht einmal mehr.

Herzlichst,

Anja Dahten (Autorin)

Subgruppenanalysen können irreführend sein

Die Einnahme von Aspirin als Blutverdünner gehört zur Standardbehandlung nach einem Herzinfarkt und ist wissenschaftlich gut belegt[2]. In einer recht bekannten Studie, die die Einnahme von Aspirin zur Behandlung von Herzinfarkten untersuchte, zeigte sich bei Teilnehmern mit den Sternzeichen Zwillinge und Waage allerdings kein statistisch signifikanter Nutzen des Medikaments[1]. Wie kann das sein?

Ein solcher vermeintlicher Widerspruch kann entstehen, wenn man kleine Gruppen von Studienteilnehmern innerhalb einer Studie isoliert betrachtet. Insgesamt wurde die Wirksamkeit von Aspirin durchaus nachgewiesen.

Die Untersuchung einer Untergruppe von Teilnehmern mit bestimmten Eigenschaften bezeichnet man als „Subgruppenanalyse“. Eines der Probleme von Subgruppenanalysen ist die erhöhte Wahrscheinlichkeit von statistisch signifikanten, aber in Wirklichkeit falschpositiven Ergebnissen. Denn je mehr Charakteristika von Subgruppen analysiert werden (z.B. Geschlecht, Alter, Augenfarbe, Sternzeichen), desto wahrscheinlicher findet sich auf irgendeiner der Charakteristika zufällig ein statistisch signifikanter Effekt [3]. Dies soll nachfolgend anhand eines fiktiven Beispiels illustriert werden:

Die Marmeladenbrot-Studie

Angenommen, die Autoren einer Studie möchten untersuchen, ob Marmeladenbrote die Lebenszufriedenheit verbessert. Dafür nehmen sie 1000 Teilnehmer in diese Studie auf; 500 davon essen eine Woche lang zu jeder Mittagsmahlzeit Marmeladenbrote, während die anderen 500 ihr übliches Mittagessen zu sich nehmen. Endlich ist es soweit, die Studie wird ausgewertet, die Ergebnisse liegen vor: Zur großen Enttäuschung der Autoren zeigt sich keine statistisch signifikante Verbesserung der Lebenszufriedenheit nach dem Verzehr vieler Marmeladenbrote.

Daraufhin machen die Wissenschaftler eine Reihe von Subgruppenanalysen, um herauszufinden, ob die Wirkung der Marmeladenbrote bei unterschiedlichen Teilnehmern unterschiedlich ausfällt.

Zuerst untersuchen sie mögliche Unterschiede bei Männern und Frauen, aber offenbar stellte sich in keiner dieser Subgruppen irgendein statistisch signifikanter Nutzen ein. Dann betrachten sie getrennt Teilnehmer über und unter einer Körpergröße von 1,50 Meter, aber auch das war offenbar nicht mit einem statistisch signifikanten Nutzen verbunden. Anschließend werden Subgruppenanalysen nach Gewicht, Frisur, Beruf, Familienstand, Alter, Lungenfunktion und Cholesterinspiegel durchgeführt; alle ohne Erfolg.

Doch dann ein Treffer: Es stellt sich heraus, dass bei Teilnehmern mit grünen Augen nach täglichem Genuss von Marmeladenbroten eine statistisch signifikante Verbesserung der Lebenszufriedenheit eintrat. In Wirklichkeit hat die Augenfarbe natürlich keinerlei Einfluss auf die Wirksamkeit von Marmeladenbroten zur Verbesserung der Lebenszufriedenheit. Doch rein zufällig wies die Subgruppe von grünäugigen Teilnehmern, die Marmeladenbrote verzehrte, eine höhere Lebenszufriedenheit auf. Je öfter man schaut, desto größer wird das Risiko solcher falsch-positiven Ergebnisse (im Prinzip wie: je öfter ich würfle, desto größer ist die Wahrscheinlichkeit, dass zufällig zwei Mal nacheinander eine 6 gewürfelt wird und damit “mehr Glück” als meine Mitspieler habe).

Falschnegative Ergebnisse

Subgruppenanalysen können auch zu falschnegativen Ergebnissen führen, d. h. eine tatsächlich vorhandene Wirkung nicht erkennen. Neben dem gleichen Sachverhalt wie eben bei den Falschpositiven illustriert wurde, kann bei falschnegativen Ergebnissen die Subgruppengröße ein zusätzlicher Grund sein: die Subgruppe hat nicht genug Teilnehmer, um eine Wirkung erkennen zu können [3]. So deuteten frühere Studien auf Basis von Subgruppenanalysen darauf hin, dass Aspirin nach einem Schlaganfall nur bei Männern das Risiko eines weiteren Schlaganfalls oder Todes reduzierte [4]. Tatsächlich ist der Nutzen bei Frauen genauso groß, die Anzahl von Frauen mit Schlaganfall in dieser Studie war aber nicht ausreichend, um diesen Effekt zu belegen [5].

Wohlgemerkt: Richtig angewandt, sind Subgruppenanalysen ein sehr nützliches Instrument. Zum Beispiel wurde durch Subgruppenanalysen in Studien zur Untersuchung von Halsoperationen bei Patienten mit teilblockierten Arterien zutreffend nachgewiesen, dass verschiedene Eigenschaften wie Alter, vorherige Schlaganfälle und Herzinfarkte die mit dem Eingriff verbundenen Risiken beeinflussen [6].

Fazit

Allzu oft werden Subgruppenanalysen vor Beginn einer Studie schlecht oder gar nicht geplant [7]. Manchmal werden Behandlungseffekte innerhalb der Subgruppen wegen der geringen Anzahl von relevanten Teilnehmern übersehen. Die Durchführung einer Vielzahl von Subgruppenanalysen erhöht die Wahrscheinlichkeit, dass scheinbar signifikante Effekte in Wirklichkeit ausschließlich auf den Zufall zurückzuführen sind. Schlussfolgerungen zur Wirksamkeit einer Behandlung, die allein aus Subgruppenanalysen gezogen werden, können sehr irreführend sein und sind mit Vorsicht zu genießen.

Text: Ed Walsh

Übersetzt von:

Redaktion: Cochrane Deutschland

Zum Originaltext

Zu den Quellenangaben

Anmerkungen:

Dies ist der 24. Beitrag einer Blogserie zu einer Zusammenstellung von „Schlüsselkonzepten zur besseren Bewertung von Aussagen zu Behandlungen“, die im Rahmen des Informed Health Choices Projektes erarbeitet wurden. Jeder der insgesamt 36 Blogbeiträge befasst sich mit einem der Schlüsselkonzepte, die als wichtig dafür erachtet werden, Aussagen zu Wirkungen von Behandlungen besser verstehen und einordnen zu können. 

Aus Gründen der besseren Lesbarkeit wird auf die gleichzeitige Verwendung männlicher und weiblicher Sprachformen verzichtet. Sämtliche Personenbezeichnungen gelten gleichermaßen für alle Geschlechter.