beitragsbild Keyconcept 2.14

2.14 Wenn der „Mittelwert“ kein Mittel zur Erklärung der Ergebnisse ist

Um die Ergebnisse klinischer Studien zu kommunizieren, nutzt man oft Mittelwerte. Diese können jedoch leicht in die Irre führen, wie diese Folge unserer „Schlüsselkonzepte“ zeigt.

Dies ist der 26. Beitrag einer Blogserie zu „Schlüsselkonzepten zur besseren Bewertung von Aussagen zu Behandlungen“, die im Rahmen des Projektes Informed Health Choices erarbeitet wurden. Jeder der insgesamt 36 Blogbeiträge befasst sich mit einem Schlüsselkonzept, das dabei hilft, Aussagen zu Wirkungen von Behandlungen besser verstehen und einordnen zu können.

1. Der Mittelwert sagt nichts über die Verteilung der Einzelergebnisse aus

Betrachten wir als Beispiel die Durchschnittsgröße von Schülern in drei Schulklassen. Diese ist in den Klassen A, B und C in der folgenden Abbildung zwar gleich, doch die Verteilung der Größen der einzelnen Schüler ist jeweils sehr unterschiedlich.

Grafik Klassen

Dies gilt es auch für Durchschnittswerte von Behandlungsergebnissen zu bedenken. Es ist sehr unwahrscheinlich, dass eine Behandlung bei sämtlichen Patienten annähernd gleich wirkt. Wie stark und in welchen Mustern die Wirkung zwischen einzelnen Patienten einer Behandlungsgruppe variiert, kann ein wichtiges Ergebnis einer klinischen Studie sein, das sich am Mittelwert allein nicht ablesen lässt.

2. Die Verteilung der Ergebnisse kann ungleichmäßig sein

Im oben stehenden Beispiel der Durchschnittsgröße der Schüler von Schulklasse C sind die Ergebnisse in zwei in sich homogene Untergruppen verteilt. Die eine liegt deutlich oberhalb, die andere unterhalb des Durchschnittswertes (mit anderen Worten, jeweils drei der sechs Schüler sind gleich groß). Auch die Größenverteilung in den Klassen A und B ist nicht besonders realistisch. In real existierenden Schulklassen gibt es zum Beispiel oft einzelne Schüler, die erheblich größer oder kleiner als die anderen sind. Solche „Ausreißer“ können sich stark auf die Durchschnittsgröße der gesamten Klasse auswirken.

In einer klinischen Studie könnte eine solche Situation etwa so aussehen: Patienten werden gebeten, ihre Schmerzen nach einer Behandlung auf einer Skala von 0-100 einzustufen. Die Ergebnisse fallen folgendermaßen aus:

Behandlung A: Bei 99 Patienten haben sich die Schmerzen um 10 Punkte gebessert; bei 1 Person besserten sich die Schmerzen um 50 Punkte.

Behandlung B: Bei 99 Patienten haben sich die Schmerzen ebenfalls um 10 Punkte gebessert; bei 1 Person verschlimmerten sie sich dagegen um 50 Punkte.

Im Durchschnitt beträgt die Verbesserung in Gruppe A 10,4 Punkte und in Gruppe B 9,4 Punkte. Auf Basis dieser Durchschnittswerte schneidet die Behandlung bei Gruppe A besser ab, dabei waren in Wirklichkeit für 99 Prozent der Personen beide Behandlungen gleichermaßen wirksam.

Ebenso können zwei Gruppen das gleiche Durchschnittsergebnis aufweisen, obwohl es den meisten Teilnehmern mit Behandlung A besser geht, es aber nur einem Patienten mit Behandlung B richtig gut geht, wie im folgenden Beispiel gezeigt wird:

In beiden Fällen sind die Mittelwerte irreführend, da einzelne Personen mit extremen Ergebnissen – sogenannte Ausreißer – den Durchschnitt nach oben beziehungsweise nach unten verschieben. Dieser ist daher für die Population insgesamt nicht repräsentativ. Im Umgang mit solchen Ausreißeren ist es sehr wichtig zu überprüfen, ob es sich dabei um einen validen Messwert oder um einen Messfehler handelt. Allerdings darf man solche Ausreißer in Studien nicht einfach nach Gutdünken zu Messfehlern erklären und aus der statistischen Auswertung herauswerfen. Vielmehr sollte man schon von vornherein einen Grenzwert definieren, ab dem Messwerte als vermeintlich fehlerhaft verworfen werden. Eine gängige (wenn auch letztlich willkürliche) Definition wäre beispielsweise, Einzelwerte, die sich mehr als 2,5 Standardabweichungen vom Mittelwert, als Ausreißer zu behandeln. Der Umgang mit Ausreißern ist allerdings eine eigene, ziemlich komplexe Disziplin der Statistik.

3. Der Mittelwert zeigt nicht, wie viele Personen eine klinisch relevante Verbesserung erfahren haben

Der Durchschnittswert reicht oft nicht aus, um eine Aussage darüber machen zu können, in wie weit ein Patient eine wirklich relevante Verbesserung erfährt. Diese Veränderung wird auch als minimaler wichtiger Unterschied bezeichnet.

Wenn man im folgenden Beispiel den Durchschnitt betrachtet, scheint es den Teilnehmern von Gruppe C (durchschnittliche Verbesserung = 5) besser als denen von Gruppe D (durchschnittliche Verbesserung = 4) zu gehen.

Wenn jedoch eine Veränderung um mindestens 7 Punkte erforderlich ist, damit ein Patient diese überhaupt bemerkt, hat kein Patient in Gruppe C eine merkliche Veränderung erfahren, jedoch 2 Personen in Gruppe D. Im Hinblick auf den Anteil von Patienten, die eine relevante Verbesserung erfahren haben, schneidet Gruppe D also besser als Gruppe C ab.

Der Durchschnitt ist in diesem Beispiel irreführend, da er nicht wiederspiegelt, welche Patienten eine relevante Veränderung erfahren haben. Wenn der Durchschnitt in einer Gruppe höher ist, bedeutet das also nicht notwendigerweise, dass die Behandlung bei dieser Gruppe wirksamer war.

Zusammenfassung:

Am Mittelwert als Kennwert für die zentrale Tendenz einer Verteilung führt in der Statistik kaum ein Weg vorbei. Doch es gilt zu bedenken, dass Mittelwerte auf mehrere Weisen irreführend sein können. Ist die Verteilung der Ergebnisse ungleichmäßig, kann der Durchschnittswert durch extreme „Ausreißer“ beeinflusst werden. Das kann dazu führen, dass eine Behandlung mehr oder weniger wirksam erscheint, als sie es im Gros der Fälle tatsächlich ist. Darüber hinaus bietet uns der Durchschnitt keine Informationen dahingehend, wie viele Patienten eine klinisch bedeutende Verbesserung erfahren haben.

Was bedeutet das in der Praxis? Wenn Sie zum Beispiel Forschungsberichte lesen, sollten Sie nicht allein auf die Mittelwerte zweier Behandlungsgruppen vertrauen, um zu entscheiden, welcher Gruppe es besser geht. Suchen Sie nach weiteren Informationen dazu, wie die Ergebnisse verteilt sind und was eine relevante Veränderung in der Messskala darstellt.

Anmerkung: Aus Gründen der besseren Lesbarkeit wird auf die gleichzeitige Verwendung männlicher und weiblicher Sprachformen verzichtet. Sämtliche Personenbezeichnungen gelten gleichermaßen für alle Geschlechter.

Bild IHC Key Concept 2.13

2.13 Angaben zu relativen Risiken können irreführend sein

Wir leben heute im Zeitalter von „Big Data“, mit Zugriff auf so viel mehr Informationen als alle unsere Vorfahren es jemals hatten. Mit einer kurzen Google-Suche kann man zu fast allem eine Statistik finden – aber kann man ihr auch vertrauen? Wir müssen sehr umsichtig sein, wenn wir die vielen Daten, mit denen wir konfrontiert werden, auch richtig interpretieren wollen.

Dies ist der 25. Beitrag einer Blogserie zu „Schlüsselkonzepten zur besseren Bewertung von Aussagen zu Behandlungen“, die im Rahmen des Projektes Informed Health Choices erarbeitet wurden. Jeder der insgesamt 36 Blogbeiträge befasst sich mit einem Schlüsselkonzept, die wichtig dafür sind, Aussagen zu Wirkungen von Behandlungen besser verstehen und einordnen zu können. 

Statistische Behauptungen in den Medien

Beim Zeitungslesen könnte man den Eindruck bekommen, dass so ziemlich alles irgendwie krebserregend ist. Die Daily Mail, ein britisches Boulevardblatt, berichtet beispielsweise, dass Dinge wie Deodorants, Suppen, Sonnencreme und sogar Oralsex das Risiko für bestimmte Krebsarten erhöhen können[1]. Viele dieser Behauptungen mögen durchaus auf guter wissenschaftlicher Evidenz über statistische Risikofaktoren beruhen. Doch bevor wir voreilige Schlüsse ziehen und Anderen entsprechende Handlungsempfehlungen geben, müssen wir uns hier die Frage stellen, bis zu welchem Grad solche Aussagen verlässlich sind. Es ist eminent wichtig, die Fakten zu prüfen, und nicht einfach alles, was unsere Facebook-Freunde teilen, als der Weisheit letzter Schluss zu betrachten. Ein wichtiger Vorbehalt gegenüber Schlagzeilen nach dem Schema „X erhöht das Risiko von Y um Z Prozent“ lautet, dass eine statistische Assoziation von X und Y noch lange keinen kausalen Zusammenhang bedeutet. Darüber haben wir bereits in einem früheren Schlüsselkonzept ausführlich gesprochen. Kaum weniger wichtig ist es, Angaben zu Risiken auf ihre Aussagekraft zu prüfen.

Wenn man beispielsweise liest, dass gemäß einer Studie „bei Frauen, die zur Körperhygiene jeden Tag Talkum anwenden, eine um 40% höhere Wahrscheinlichkeit besteht, Eierstockkrebs zu entwickeln“ [2], ist man vielleicht derart verängstigt, dass man dieses Produkt nie wieder anrührt. Aber: Diese Statistik für sich allein genommen hat wenig Aussagekraft. Denn wir wissen nicht:

  • Wie viele Personen Talkum in der Studie anwendeten.
  • Wie viele Personen insgesamt an der Studie teilnahmen.
  • Wie viele Frauen in der Untersuchungs- bzw. Kontrollgruppe Eierstockkrebs hatten (Anwenderinnen von Talkum im Vergleich zu Frauen, die es nicht anwendeten).
  • Diese Statistik sagt nichts über viele andere Faktoren aus, die hier eine Rolle spielen könnten. In diesem Beispiel ergab die Studie lediglich, dass nur bei postmenopausalen Frauen ein erhöhtes Risiko bestand, wenn Talkum direkt im Schambereich angewendet wurde. Auch wurde berichtet, dass in der „Talkum-Gruppe“ mehr übergewichtigere Personen waren als in der „Nicht-Talkum-Gruppe“. Dies ist in diesem Fall von besonderer Bedeutung, da Übergewicht ein bekannter Risikofaktor für Eierstockkrebs ist. [3]

Das Problem ist, dass diese Statistik (eine um 40% höhere Wahrscheinlichkeit) ein relatives Risikos [AP1] darstellt. Ein relatives Risiko ist eine Art der Berichterstattung eines Risikos in Prozentsätzen, aber nur in Relation zur Vergleichsgruppe und nicht unter Berücksichtigung der Gesamtzahl der betroffenen Personen oder Krankheitsfälle. Diesen Punkt betont Dr. Jodie Moffat von Cancer Research UK: „Es ist wichtig, darauf hinzuweisen, dass nur sehr wenige Frauen, die Talkum anwenden, jemals Eierstockkrebs entwickeln werden. [2]

Relatives oder absolutes Risiko?

Es gibt viele verschiedene Arten, Risiken zu bestimmen. Das relative Risiko, manchmal auch als Risiko-Verhältnis bezeichnet, stellt den Unterschied zwischen zwei Gruppen einfach dar. Es kann jedoch irreführend sein, da es nicht die ursprüngliche Anzahl der Fälle wiedergibt. Nehmen wir als Beispiel folgende Zahlen einer fiktiven Studie:

  • 100 Teilnehmer wurden mit einem Arzneimittel behandelt; von diesen litt ein Teilnehmer unter einen Herzinfarkt = 1% Risiko für einen Herzinfarkt
  • 100 Teilnehmer wurden mit einem Arzneimittel NICHT behandelt; von diesen erlitten zwei Teilnehmer einen Herzinfarkt = 2% Risiko für einen Herzinfarkt
Tabelle mit Zahlen aus Text

Man könnte vielleicht denken, dass die Differenz von einer Person von Hundert nicht allzu groß ist. Das relative Risiko wird jedoch ermittelt, indem man die 1 % und die 2 % vergleicht. Die resultierende Aussage lautet, dass „Personen, die dieses Arzneimittel nicht einnehmen, ein zweifach höheres Risiko für einen Herzinfarkt haben“, oder umgekehrt, dass „dieses Arzneimittel das Risiko für einen Herzinfarkt um 50% senkt“. Dies kann der Wahrheit entsprechen und in anderen Studien auch bestätigt werden. Dennoch kann es sein, dass dieses Arzneimittel nicht so wirksam ist, wie es scheint; Der Unterschied könnte lediglich zufällig sein. Aus diesem Grund muss der Umstand, dass zwischen den Gruppen nur eine Gesamtdifferenz von 1% bestand, ebenfalls genannt werden – wir bezeichnen dies als die absolute Risikodifferenz.

Number needed to treat

Ein weiteres nützliches Maß, das in der Medizin eingesetzt wird, um Risiken besser einodnen zu können, ist die „Number needed to treat“ (NNT) – also die Anzahl der Personen, die theoretisch behandelt werden müssen, damit eine von ihnen einen Nutzen davon hat.
Im obigen Beispiel betrüge die NNT 100, da ja bereits festgestellt wurde, dass das Arzneimittel an 100 Personen verabreicht werden muss, damit bei einer Person ein Herzinfarkt verhindert wird. Arzneimittel können Nebenwirkungen haben oder sehr kostspielig sein. Wenn also nicht viele Personen einen Nutzen davon haben, ist der Aufwand es zu verabreichen, vielleicht zu hoch.

Weitere Überlegungen

In die Überlegungen muss auch einfließen, wie hoch überhaupt die Wahrscheinlichkeit ist, dass ein bestimmtes Ergebnis eintritt. Man stelle sich beispielsweise ein Arzneimittel vor, dass die Wahrscheinlichkeit dafür, dass man eine bestimmte Krankheit bekommt, um 50% senkt. Das Arzneimittel verursacht jedoch Nebenwirkungen, und das Grundrisiko, die Krankheit überhaupt zu bekommen, liegt bei 2 von 100. In diesem Fall könnte eine Behandlung sinnvoll sein, solange der Nutzen in einem vernünftigen Verhältnis zu den Nebenwirkungen steht. Wenn jedoch das Risiko, die Krankheit überhaupt zu bekommen, nur bei 2 von 10.000 liegt, ist die präventive Behandlung wahrscheinlich nicht sinnvoll, auch wenn die relative Wirkung des Arzneimittels dieselbe ist.

Das relative Risiko kann zur Darstellung der Risikozunahme oder -reduktion von Krankheits- oder Risikofaktoren dienen (wie im Beispiel mit dem Talkum oben). Bei größeren Probandengruppen ist das relative Risiko relativ zuverlässig. Bei der Analyse von Studien mit kleineren Stichprobengrößen oder Studien, die seltenere Krankheiten untersuchen, kann es jedoch leicht einen falschen Eindruck vermitteln. Daher ist es wichtig, alles, was man in Zeitungen oder auch in wissenschaftlichen Fachzeitschriften liest, mit Vorsicht zu genießen, solange man nicht sämtliche Fakten kennt. Es muss sich nicht unbedingt um „Fake News“ handeln, kann aber dennoch irreführend sein.

Das nächste Mal, wenn Sie es mit einem relativen Risiko zu tun haben, fragen Sie sich auch, was das absolute Risiko ist.

Text: Gareth Grant

Übersetzt von:

Redaktion: Cochrane Deutschland

Zum Originaltext

Zu den Quellenangaben

Anmerkung: Aus Gründen der besseren Lesbarkeit wird auf die gleichzeitige Verwendung männlicher und weiblicher Sprachformen verzichtet. Sämtliche Personenbezeichnungen gelten gleichermaßen für alle Geschlechter.

Vorstellungen und Evidenz

Fakt oder Fiktion: wie und warum ich Cochrane Evidenz in der Lehre nutze

Vorstellungen davon, wie die Welt funktioniert, prägen unser Leben. Vorstellungen sind auch unsere Filter, durch die die ständig auf uns einwirkende Wissens- und Informationsflut strömt. Herzhaftes Halb-Wissen und eine verzerrte Wahrnehmung der Fakten sind oft das Resultat. Vor allem im Bereich Gesundheit, so meine Erfahrung, neigen wir dazu, unseren Vorstellungen freien Lauf zu lassen. Wie Cochrane Evidenz mir dazu verhilft, Vorstellungen mit fundiertem Wissen zu verknüpfen, möchte ich in diesem Erfahrungsbericht kurz vorstellen.

In meiner bisherigen Praxiserfahrung als Dozent der Gesundheitspädagogik werde ich oft mit ‚Vorstellungen‘ konfrontiert, also mit individuellen Interpretationen der Welt oder ‚Um‘-welt, deren Wechselwirkungen und Gesetzmäßigkeiten. Natürlich liegt das Augenmerk meiner Arbeit auf Vorstellungen, die gesundheitsrelevanten Verhaltensweisen zu Grunde liegen. Weiterlesen

Evidenz verstehen – Denk kritisch!

Im Leben muss man viele Entscheidungen treffen, und dabei ist es wichtig Entscheidungsmöglichkeiten zu haben. Eine Entscheidung in Bezug auf die Gesundheitsversorgung zu treffen, vor Allem wenn es um einen selbst geht, ist eine ernste Sache. Hier will man nichts falsch machen.

Wer sollte Evidenz verstehen?

Wenn Patienten im Wartesaal meiner Klinik sitzen, frage ich mich manchmal, ob ich ihnen nicht verschiedene Beratungsarten anbieten sollte. Wollen sie eher eine traditionelle, paternalistische „der Doktor weiß die Antwort schon“-Beratung, wenn sie zu mir kommen? Eine, in welcher ich ihnen zuhöre und dann eine Behandlungsmethode oder eine Behandlung verordne? Oder wollen sie das genaue Gegenteil: eine Auswahl an Optionen, eine Menge an Informationen aus dem Internet und ein Bündel an schriftlich verfasstem Material, sodass sie nach Hause gehen können und sich all das in Ruhe selbst ansehen und dann selbst entscheiden können?

Weiterlesen

Photo by João Silas

Cochrane Kompakt – ein Übersetzungsprojekt, das weiterhilft

Es war wirklich ein Schock. Gleich an vier Stellen Karies! Dabei putzen wir doch wirklich regelmäßig und gründlich die Zähne mit unserer achtjährigen Tochter. Was machen wir falsch? Oder vielmehr: Was können wir besser machen? Eine Freundin schwört zur Vorbeugung von Karies auf fluoridhaltige Mundspülung. Aber hilft das wirklich?

Die Suchanfrage bei Google ergibt über 300 000 Treffer. Darunter finden sich neben viel Werbung auch obskure Beiträge in Foren und alle Arten von Artikeln, deren Inhalt sich häufig widerspricht.

Weiterlesen