beitragsbild Keyconcept 2.14

2.14 Wenn der „Mittelwert“ kein Mittel zur Erklärung der Ergebnisse ist

Um die Ergebnisse klinischer Studien zu kommunizieren, nutzt man oft Mittelwerte. Diese können jedoch leicht in die Irre führen, wie diese Folge unserer „Schlüsselkonzepte“ zeigt.

Dies ist der 26. Beitrag einer Blogserie zu „Schlüsselkonzepten zur besseren Bewertung von Aussagen zu Behandlungen“, die im Rahmen des Projektes Informed Health Choices erarbeitet wurden. Jeder der insgesamt 36 Blogbeiträge befasst sich mit einem Schlüsselkonzept, das dabei hilft, Aussagen zu Wirkungen von Behandlungen besser verstehen und einordnen zu können.

1. Der Mittelwert sagt nichts über die Verteilung der Einzelergebnisse aus

Betrachten wir als Beispiel die Durchschnittsgröße von Schülern in drei Schulklassen. Diese ist in den Klassen A, B und C in der folgenden Abbildung zwar gleich, doch die Verteilung der Größen der einzelnen Schüler ist jeweils sehr unterschiedlich.

Grafik Klassen

Dies gilt es auch für Durchschnittswerte von Behandlungsergebnissen zu bedenken. Es ist sehr unwahrscheinlich, dass eine Behandlung bei sämtlichen Patienten annähernd gleich wirkt. Wie stark und in welchen Mustern die Wirkung zwischen einzelnen Patienten einer Behandlungsgruppe variiert, kann ein wichtiges Ergebnis einer klinischen Studie sein, das sich am Mittelwert allein nicht ablesen lässt.

2. Die Verteilung der Ergebnisse kann ungleichmäßig sein

Im oben stehenden Beispiel der Durchschnittsgröße der Schüler von Schulklasse C sind die Ergebnisse in zwei in sich homogene Untergruppen verteilt. Die eine liegt deutlich oberhalb, die andere unterhalb des Durchschnittswertes (mit anderen Worten, jeweils drei der sechs Schüler sind gleich groß). Auch die Größenverteilung in den Klassen A und B ist nicht besonders realistisch. In real existierenden Schulklassen gibt es zum Beispiel oft einzelne Schüler, die erheblich größer oder kleiner als die anderen sind. Solche „Ausreißer“ können sich stark auf die Durchschnittsgröße der gesamten Klasse auswirken.

In einer klinischen Studie könnte eine solche Situation etwa so aussehen: Patienten werden gebeten, ihre Schmerzen nach einer Behandlung auf einer Skala von 0-100 einzustufen. Die Ergebnisse fallen folgendermaßen aus:

Behandlung A: Bei 99 Patienten haben sich die Schmerzen um 10 Punkte gebessert; bei 1 Person besserten sich die Schmerzen um 50 Punkte.

Behandlung B: Bei 99 Patienten haben sich die Schmerzen ebenfalls um 10 Punkte gebessert; bei 1 Person verschlimmerten sie sich dagegen um 50 Punkte.

Im Durchschnitt beträgt die Verbesserung in Gruppe A 10,4 Punkte und in Gruppe B 9,4 Punkte. Auf Basis dieser Durchschnittswerte schneidet die Behandlung bei Gruppe A besser ab, dabei waren in Wirklichkeit für 99 Prozent der Personen beide Behandlungen gleichermaßen wirksam.

Ebenso können zwei Gruppen das gleiche Durchschnittsergebnis aufweisen, obwohl es den meisten Teilnehmern mit Behandlung A besser geht, es aber nur einem Patienten mit Behandlung B richtig gut geht, wie im folgenden Beispiel gezeigt wird:

In beiden Fällen sind die Mittelwerte irreführend, da einzelne Personen mit extremen Ergebnissen – sogenannte Ausreißer – den Durchschnitt nach oben beziehungsweise nach unten verschieben. Dieser ist daher für die Population insgesamt nicht repräsentativ. Im Umgang mit solchen Ausreißeren ist es sehr wichtig zu überprüfen, ob es sich dabei um einen validen Messwert oder um einen Messfehler handelt. Allerdings darf man solche Ausreißer in Studien nicht einfach nach Gutdünken zu Messfehlern erklären und aus der statistischen Auswertung herauswerfen. Vielmehr sollte man schon von vornherein einen Grenzwert definieren, ab dem Messwerte als vermeintlich fehlerhaft verworfen werden. Eine gängige (wenn auch letztlich willkürliche) Definition wäre beispielsweise, Einzelwerte, die sich mehr als 2,5 Standardabweichungen vom Mittelwert, als Ausreißer zu behandeln. Der Umgang mit Ausreißern ist allerdings eine eigene, ziemlich komplexe Disziplin der Statistik.

3. Der Mittelwert zeigt nicht, wie viele Personen eine klinisch relevante Verbesserung erfahren haben

Der Durchschnittswert reicht oft nicht aus, um eine Aussage darüber machen zu können, in wie weit ein Patient eine wirklich relevante Verbesserung erfährt. Diese Veränderung wird auch als minimaler wichtiger Unterschied bezeichnet.

Wenn man im folgenden Beispiel den Durchschnitt betrachtet, scheint es den Teilnehmern von Gruppe C (durchschnittliche Verbesserung = 5) besser als denen von Gruppe D (durchschnittliche Verbesserung = 4) zu gehen.

Wenn jedoch eine Veränderung um mindestens 7 Punkte erforderlich ist, damit ein Patient diese überhaupt bemerkt, hat kein Patient in Gruppe C eine merkliche Veränderung erfahren, jedoch 2 Personen in Gruppe D. Im Hinblick auf den Anteil von Patienten, die eine relevante Verbesserung erfahren haben, schneidet Gruppe D also besser als Gruppe C ab.

Der Durchschnitt ist in diesem Beispiel irreführend, da er nicht wiederspiegelt, welche Patienten eine relevante Veränderung erfahren haben. Wenn der Durchschnitt in einer Gruppe höher ist, bedeutet das also nicht notwendigerweise, dass die Behandlung bei dieser Gruppe wirksamer war.

Zusammenfassung:

Am Mittelwert als Kennwert für die zentrale Tendenz einer Verteilung führt in der Statistik kaum ein Weg vorbei. Doch es gilt zu bedenken, dass Mittelwerte auf mehrere Weisen irreführend sein können. Ist die Verteilung der Ergebnisse ungleichmäßig, kann der Durchschnittswert durch extreme „Ausreißer“ beeinflusst werden. Das kann dazu führen, dass eine Behandlung mehr oder weniger wirksam erscheint, als sie es im Gros der Fälle tatsächlich ist. Darüber hinaus bietet uns der Durchschnitt keine Informationen dahingehend, wie viele Patienten eine klinisch bedeutende Verbesserung erfahren haben.

Was bedeutet das in der Praxis? Wenn Sie zum Beispiel Forschungsberichte lesen, sollten Sie nicht allein auf die Mittelwerte zweier Behandlungsgruppen vertrauen, um zu entscheiden, welcher Gruppe es besser geht. Suchen Sie nach weiteren Informationen dazu, wie die Ergebnisse verteilt sind und was eine relevante Veränderung in der Messskala darstellt.

Anmerkung: Aus Gründen der besseren Lesbarkeit wird auf die gleichzeitige Verwendung männlicher und weiblicher Sprachformen verzichtet. Sämtliche Personenbezeichnungen gelten gleichermaßen für alle Geschlechter.

Teilnehmer eines Behandlungsvergleichs sollten nicht wissen, welche Behandlung sie erhalten

Dies ist der 17. Beitrag einer Blogserie zu einer Zusammenstellung von „Schlüsselkonzepten zur besseren Bewertung von Aussagen zu Behandlungen“, die im Rahmen des Informed Health Choices (ICH) Projektes erarbeitet wurde. Jeder der insgesamt 36 Blogbeiträge befasst sich mit einem der Schlüsselkonzepte, die als wichtig dafür erachtet werden, Aussagen zu Wirkungen von Behandlungen besser verstehen und einordnen zu können.

Wenn Patienten eine Behandlung für ihr Gesundheitssproblem erhalten und daraufhin eine Verbesserung erfahren, wird häufig angenommen, dass dies auf dem naheliegendsten ‚Grund‘ basiert: die Behandlung selbst. Das kann natürlich stimmen, jedoch müssen wir andere mögliche Gründe ausschließen, bevor wir uns auf diese Schlussfolgerung verlassen können.

Zum Beispiel könnte die Erkrankung von selbst ausgeheilt sein; die Arzt-Patient-Interaktion könnte eine eigenständige Wirkung erbracht haben; Patienten könnten sich infolge der Behandlung anders verhalten haben; die Erwartungen der Patienten könnten ihre Wahrnehmung der Erkrankung beeinflusst haben und so weiter. Die automatische Annahme, dass ein beobachteter ‚Effekt‘ auf eine bestimmte ‚Behandlung‘ zurückgeht, war und ist die treibende Kraft für viele medizinische Behandlungen, die keinen wirklichen Nutzen bringen. Weiterlesen

2.3. Die Ergebnisse aller Teilnehmer einer Studie sollten in den ursprünglichen Gruppen ausgewertet werden

Dies ist der 15. Beitrag einer Blogserie zu einer Zusammenstellung von „Schlüsselkonzepten zur besseren Bewertung von Aussagen zu Behandlungen“, die im Rahmen des Informed Health Choices (ICH) Projektes erarbeitet wurde. Jeder der insgesamt 36 Blogbeiträge befasst sich mit einem der Schlüsselkonzepte, die als wichtig dafür erachtet werden, Aussagen zu Wirkungen von Behandlungen besser verstehen und einordnen zu können.

Stellen Sie sich vor, Sie lesen eine Studie und stellen fest, dass die Teilnehmer zwei Behandlungsgruppen zufällig („randomisiert“) zugeteilt wurden. Eine Gruppe wird einer operativen Behandlung zugeteilt, die andere einer medikamentösen. Großartig, denken Sie, die Teilnehmer wurden zufällig zugeteilt: dies hilft sicherzustellen, dass die Gruppen in ihren Eigenschaften vergleichbar sind. Das ist aber nicht alles. Einige Teilnehmer erhalten aus verschiedenen Gründen möglicherweise die ihnen zugeteilte Behandlung nicht. Zum Beispiel können sich Teilnehmer gegen die Behandlung entscheiden.

Es ist wichtig, dass – soweit möglich – alle Patienten, die den beiden Gruppen zugeordnet wurden, nachbeobachtet und in der Hauptanalyse der Gruppe erfasst werden, der sie ursprünglich zugeteilt wurden. Selbst wenn Teilnehmer – und dies mag auf den ersten Blick widersinnig erscheinen – die zugeteilte Behandlung tatsächlich nie erhalten haben. Der Grund hierfür ist, dass Teilnehmer, die nicht behandelt werden oder die Behandlung nicht einhalten, sich möglicherweise in ihren Eigenschaften von denjenigen, die die Behandlung einhalten, unterscheiden. Wenn Teilnehmer, die ihre Behandlung nicht eingehalten haben, aus der Analyse ausgeschlossen werden, bedeutet dies möglicherweise, dass der Behandlungsvergleich nicht mehr fair ist. Das heißt, es wird nicht mehr Gleiches mit Gleichem verglichen.

Weiterlesen