2.16 Konfidenzintervalle sollten angegeben werden

Sicherlich sind auch Sie bei der Auswertung von wissenschaftlicher Literatur oder im Rahmen Ihrer eigenen Forschungsarbeiten schon einmal auf das unschuldig aussehende „p“ gestoßen. Meiner Erfahrung nach sind die meisten Menschen zwar mit p-Werten vertraut. Nur wenige können jedoch erklären, was sie bedeuten.

Dies ist der 28. Beitrag einer Blogserie zu „Schlüsselkonzepten zur besseren Bewertung von Aussagen zu Behandlungen“, die im Rahmen des Projektes Informed Health Choices erarbeitet wurden. Jeder der insgesamt 36 Blogbeiträge befasst sich mit einem Schlüsselkonzept, das dabei hilft, Aussagen zu Wirkungen von Behandlungen besser verstehen und einordnen zu können.

Dieses Wirrwarr sowie ein grassierender Fehlgebrauch haben dazu geführt, dass das „p“ zu einem umstrittenen Thema geworden und sogar aus einigen Fachzeitschriften völlig verbannt worden ist. In diesem Beitrag wird diskutiert, weshalb die Verwendung von p-Werten zur Darstellung von Ergebnissen problematisch sein kann. Es werden Alternativen erkundet, die eventuell besser dazu geeignet sind, Informationen über das Vertrauen in die Studienergebnisse zu vermitteln.

Bei der Beschreibung von Forschungsergebnissen ist die wichtigste Zahl, die angegeben wird, der Punktschätzer (z. B. ein Unterschied im Risiko zwischen zwei Gruppen, Risikodifferenz genannt). Dieser Wert ist die „beste Schätzung“ des wahren Unterschieds. Da Studien jedoch nur an einer Stichprobe aus der größeren interessierenden Grundgesamtheit durchgeführt werden, weicht die Punktschätzung für die Stichprobe unweigerlich vom unbekannten wahren Unterschied zwischen den Gruppen ab. Das heißt, der wahre Unterschied kann größer oder kleiner als der geschätzte Wert sein. Dies kann entweder durch Bias, Zufallsfehlern auf Basis der Stichprobenauwahl („Zufall“) oder eine Kombination aus beidem bedingt sein.

In der Forschung werden statistische Untersuchungen dazu verwendet, Daten darüber zu erhalten, wie wahrscheinlich es ist, dass der beobachtete Unterschied lediglich zufallsbedingt zustande gekommen ist. Üblicherweise wird ein p-Wert berechnet. Das „P“ steht für ‘Probabilität‘, und bezieht sich auf die Wahrscheinlichkeit, Unterschiede zu beobachten, die genauso groß wie die in der Studie beobachteten oder größer sind, wobei davon ausgegangen wird, dass in Wirklichkeit kein wahrer Unterschied besteht (d. h. es wird davon ausgegangen, dass die Nullhypothese wahr ist).

Eine hypothetische Studie

In einer Präventionsstudie untersuchen wir den Unterschied zwischen zwei Gruppen (einer Behandlungs- und einer Placebogruppe) im Risiko, die Krankheit X zu entwickeln. Wir stellen fest, dass das Risiko in der Behandlungsgruppe geringer ist als das Risiko in der Placebogruppe. Unser statistischer Test ergibt für die Risikodifferenz einen niedrigen p-Wert von p = 0,001.


Dies bedeutet, dass es sehr unwahrscheinlich ist, dass derselbe Unterschied beobachtet worden wäre, wenn kein wahrer Unterschied zwischen den Vergleichsgruppen bestünde (Nullhypothese). In anderen Worten: wir können uns ziemlich sicher sein, dass dieser Unterschied im Risiko wirklich besteht, und dass unsere Behandlung das Risiko, Krankheit X zu entwickeln, verringert. In Wahrheit werden wir es nie sicher wissen. Selbst bei einem niedrigen p-Wert besteht weiterhin die Möglichkeit, dass die Nullhypothese fälschlicherweise verworfen wird, obwohl sie tatsächlich wahr ist (ein „falsch-positiver“ Wert). Dies wird als Fehler 1. Art bezeichnet.

Statistische Hypothesenprüfung

Wie groß darf der Fehler 1. Art sein, um noch akzeptabel zu sein? Genau an dieser Stelle kommt das Konzept der statistischen Hypothesentestung ins Spiel. Bei einem Hypothesentest wird der p-Wert im Vergleich zu einem vorab festgelegten Grenzwert (Signifikanzniveau) ermittelt, der angibt, wie groß der Fehler 1. Art sein darf, der noch toleriert werden kann (häufig 0,05 oder 5 %). Das Konzept ist ziemlich einfach: wenn p < 0,05, werden die Ergebnisse als „statistisch signifikant“ betrachtet. Wenn nicht, sind die Ergebnisse „statistisch nicht signifikant“. Aber weshalb genau 0,05? Dieser Grenzwert ist völlig willkürlich gewählt. Wie Rosendaal sagt: „Es steckt keine Logik dahinter. Es gibt keine mathematische oder biologische Begründung, die einen Grenzwert von 5 % stützt [3]. Leider herrscht in der heutigen Forschung ein großer Druck, „statistisch signifikante“ Ergebnisse auf Basis eines auf diesem willkürlich festgelegten Grenzwert basierenden Hypothesentests zu erhalten.

Beachten Sie, dass bis jetzt noch nichts über die tatsächliche Punktschätzung/Effektgröße für unsere Beispielstudie gesagt worden ist! Genau das ist das Problem mit p-Werten und der Signifikanztestung: Wir haben unser Augenmerk darauf gerichtet, dass wir uns relativ sicher sind, dass unser Ergebnis nicht rein zufällig zustande gekommen ist, aber wir haben tatsächlich keine Vorstellung davon, ob das Ergebnis in irgendeiner Form nützlich oder klinisch relevant ist!

Ein „statistisch signifikantes Ergebnis“ weist daher nicht notwendigerweise auf ein wichtiges Ergebnis hin. Selbst ein trivial kleiner Effekt (ohne klinische Relevanz) kann aufgrund eines niedrigen p-Werts als „signifikant“ erachtet werden. Dies ist nicht unüblich in großen Studien oder Studien, in denen viele Hypothesen getestet werden (1/20 sind bei einem Signifikanzniveau von 0,05 rein zufällig signifikant).

Am anderen Ende des Spektrums ist es auch möglich, einen großen Punktschätzer für einen Effekt mit einem nicht signifikanten p-Wert (z.B. p = 0,10) zu erhalten. Dies kommt insbesondere bei kleinen Stichprobengrößen oder großen Studien vor, die kleine geschichtete (stratifizierte) Untergruppen untersuchen. Leider werden nicht signifikante p-Werte häufig mit „keine Wirkung“ verwechselt und werden potenziell bedeutsame Ergebnisse von zu kleinen („underpowered“) Studien einfach unberücksichtigt gelassen.

Wenn Ergebnisse nur mit p-Werten und/oder einer Aussage über die „statistische Signifikanz“ dargestellt werden, wird die wichtigste Information außer acht gelassen: die Punktschätzung. Mittlerweile denken Sie bestimmt, wie gut es wäre, eine alternative Methode für die Darstellung der Unsicherheit in Zusammenhang mit der tatsächlichen Größe und Richtung des Effekts zu haben? Glücklicherweise gibt es hier eine andere Option!

Konfidenzintervalle

Wenn wir die Unsicherheit bezüglich eines Ergebnisses kommunizieren möchten, ist es viel besser, ein Konfidenzintervall (KI; Konfidenz = Vertrauen) zu verwenden. Ein KI ist ein symmetrischer Wertebereich, in dem die Ergebniswerte wiederholter Experimente wahrscheinlich liegen. Unser Punktschätzer liegt in der Mitte dieses Bereichs. Die Breite des KIs stellt den Fehlerbereich dar und wird mittels der Verteilung der Daten, der Stichprobengröße und einer Stichprobenverteilung berechnet, die auch zur Berechnung von p-Werten verwendet werden. Der wichtige Unterschied hier ist, dass das KI einen besseren Bezugsrahmen als der p-Wert vermittelt, weil es die Richtung des Effekts zeigt (d. h. zum Beispiel ob eine Behandlung das Sterberisiko erhöht oder senkt), und weil es in denselben Einheiten wie die Punktschätzung angegeben wird, während es gleichzeitig auch die Unsicherheit der Schätzung angibt.

Das Konfidenzniveau (90 %, 95 %, 99 %, usw.), das für das KI gewählt wird, ist völlig willkürlich. Üblicherweise wird in der medizinischen Forschung ein Niveau von 95 % verwendet, da diese Zahl dem uns vertrauten Signifikanzniveau von 0,05 entspricht. Was bedeutet dieser Prozentsatz? Eine häufige Fehlinterpretation ist, dass der wahre Wert 95 % der Fälle in diesem Bereich liegt. Stattdessen bedeutet ein 95 % KI jedoch nur, dass, wenn dasselbe Experiment wieder und wieder mit verschiedenen Stichproben der interessierenden Grundgesamtheit durchgeführt wird, der wahre Wert in 95 % dieser Studien innerhalb des KIs liegt (ausgehend von der Annahme, dass alle Voraussetzungen zur richtigen Berechnung des KIs erfüllt sind).

Die Breite des KI zeigt die Präzision des Punktschätzers an. Bspw. kann ein Punktschätzer eines Unterschieds von 5,5 ein 95 % KI von 3,5 bis 7,5 aufweisen (Breite von 4 Einheiten). Ein schmaleres Intervall, das einen Bereich von zwei Einheiten (z. B. 95 % KI, 4,5 bis 6,5) umfasst, ergibt eine präzisere Schätzung derselben Effektgröße als ein breiteres KI mit derselben Effektgröße (z. B. 95 % KI, 3,5 bis 7,5).

Nehmen wir beispielsweise an, eine bestimmte Behandlung reduziere das Sterberisiko im Vergleich zu einer Placebobehandlung mit einem Odds Ratio (Chancenverhältnis) von 0,5 und einem 95 % KI von 0,2 bis 0,8. Dies bedeutet, dass die Behandlung in unserer Stichprobe das Sterberisiko im Vergleich zu der Placebobehandlung um 50 % verringert hat, und dass die wahre Verringerung des Risikos irgendwo zwischen 20 % und 80 % liegt.

Es ist wichtig zu beachten, dass ein Konfidenzintervall keine einheitliche Wahrscheinlichkeitsverteilung darstellt, dass die Werte, die am dichtesten am Punktschätzer liegen, wahrscheinlich eher wahr sind als die Werte an den äußeren Enden des Intervalls.

Für diejenigen, die auf statistischen Hypothesentests bestehen – Konfidenzintervalle liefern Ihnen sogar auch diese Information. Wenn Ihr KI den Nullhypothesenwert nicht umfasst (z. B. für eine Risikodifferenz: Nullhypothese = 0, für ein relatives Risiko: Nullhypothese = 1), dann ist Ihr Ergebnis „statistisch signifikant“ (auf dem dem Signifikanzniveau des KIs entsprechenden Niveau). Wenn der Nullhypothesenwert innerhalb des Intervalls liegt, ist das Ergebnis „nicht statistisch signifikant“. Es ist jedoch wichtig sich daran zu erinnern, dass diese „zweigeteilte“ Denkweise aus den bereits erwähnten Gründen problematisch sein kann.

Eine großartige Ressource, die Sie sich anschauen können, ist eine von Steven Woloshin erstellte animierte Folienpräsentation, in der dargestellt ist, wie das Cochrane-Logo entwickelt wurde und was es aussagt.

Schlussfolgerung

Zusammengefasst lässt sich feststellen, dass p-Werte sehr irreführend sein können, insbesondere, wenn sie in Verbindung mit statistischen Hypothesentests ohne entsprechende Punktschätzer und Konfidenzintervalle dargestellt werden. Ihre Verwendung lenkt von möglicherweise interessanten Ergebnissen ab, die den Signifikanzschwellenwert aufgrund von Faktoren wie beispielsweise einer geringen Zahl von Ergebnisereignissen erreichen. Wenn Ergebnisse nicht veröffentlicht werden, weil sie „nicht statistisch signifikant“ sind (was nicht dasselbe wie das Ergebnis „keine Assoziation“ ist), führt dies zu schädlichem Publikations-Bias.

Anstatt sich auf wenig aussagekräftige p-Werte zu berufen, möchte ich Sie dazu ermuntern, Ergebnisse unter Verwendung von Punktschätzern und ihren aussagekräftigeren Konfidenzintervallen darzustellen und skeptisch zu sein bei Forschungsergebnissen und Behauptungen, die diese Informationen nicht vermitteln.

Text: Jessica Rohmann

Übersetzt von: Brita Fiess

Zum Originaltext

Literaturhinweise im Originaltext

Anmerkung

Aus Gründen der besseren Lesbarkeit wird auf die gleichzeitige Verwendung männlicher und weiblicher Sprachformen verzichtet. Sämtliche Personenbezeichnungen gelten gleichermaßen für alle Geschlechter.

Kurzvideos über Grundlagen der Evidenzbasierten Medizin – Teil 2: Confounding, Zufallsfehler und Bias

Was ist beim Interpretieren von Studien zu beachten und wie können Fehlerquellen, die zu verzerrten Ergebnissen führen, möglichst vermieden werden? Das ist das Thema unseres zweiten Kurzvideos aus der Serie zu Grundlagen der Evidenzbasierten Medizin.

Studien haben immer das Ziel, so gut als möglich den wahren Effekt einer Intervention abzubilden. Sogenannte Störfaktoren können genau das aber manchmal verhindern und zu verzerrten Ergebnissen führen. In unserem zweiten Video stellen wir drei Fehlerquellen vor, die diese Gefahr mit sich bringen: Confounding, Zufallsfehler und Bias.

Confounding kommt aus dem Englischen und bedeutet so viel wie „verwirren“ oder „durcheinanderbringen“. Genau das tun Confounder auch – sie verwirren uns bei der Interpretation und führen dazu, dass wir falsche Schlüsse über Ursachen und Wirkungszusammenhänge ziehen. Ein Beispiel: Wir beobachten, dass ein hoher Kaffeekonsum mit schlechter Herzgesundheit zusammenhängt. Bei genauerem Hinsehen stellen allerdings fest, dass speziell Personen, die viel rauchen ein erhöhtes Risiko für Herzerkrankungen haben. Raucherinnen und Raucher trinken auch häufig Kaffee. Würde man den Faktor „Rauchen“ nicht in die Analyse miteinbeziehen, könnte man den falschen Schluss ziehen, dass Kaffeetrinken für die Herzgesundheit schädlich ist.

Es gibt Confounder, die man im Vorfeld einer Studie kennt und die man berücksichtigen kann (z.B. Einteilung der Gruppen in Raucher und Nichtraucher). Es gibt aber auch Confounder, die unbekannt sind. Die einzige Möglichkeit mit diesen umzugehen ist eine Randomisierung – also ein zufälliges Zuteilen der StudienteilnehmerInnen auf die Studienarme.

Zufallsfehler treten auf, wenn das Ergebnis der Studie zufällig vom echten Effekt in der Population abweicht. Wichtig hierbei ist, dass diese Abweichung keine bestimmte Richtung hat. Der Zufallsfehler schlägt vor allem bei kleinen Studien zu. Bei einer Studie mit 40 Personen könnte es leicht passieren, dass Einflussfaktoren wie Alter, Geschlecht, privater und beruflicher Hintergrund sich trotz zufälliger Gruppenzuteilung ungleichmäßig auf die Studienarme aufteilen. Nehmen wir an, dass sich in einer Gruppe mehr ältere Personen befinden als in der anderen. Wenn dann diese Personen am Ende der Studie einen schlechteren Gesundheitszustand haben, kann das mit der Intervention zusammenhängen, es kann aber auch daher kommen, dass diese Personen älter waren. Zufallsfehler können durch umfangreiche Stichprobengrößen eingedämmt werden.

Bias sind systematische Fehler, die beim Design, der Durchführung, oder der Auswertung der Studie entstehen können. Beispielsweise kann das Wissen darüber, wer zur Interventions- und wer zur Vergleichsgruppe gehört, zu Verzerrungen führen. Um das zu vermeiden, werden StudienteilnehmerInnen und Studienpersonal häufig „verblindet“ – das heißt sie werden nicht informiert, wer in der Interventions- oder Kontrollgruppe ist.

Es gibt eine Vielzahl von Bias-Arten, Selektions-Bias, Performance-Bias, Mess-Bias und Attrition-Bias werden in unserem Video näher erklärt, weil sie zum kritischen Bewerten von Studien sehr wichtig sind. Generell gilt, dass Bias bei der kritischen Beurteilung von Studien nicht direkt gemessen werden kann, sondern nur indirekt über die Beurteilung des Studiendesigns und der Ausführung der Studie. Bias kann also durch gutes Studiendesign, gute Durchführung der Studie und angemessene Auswertung der Daten minimiert werden.

Text: Barbara Nußbaumer-Streit, Claudia Christof

2.15 Statistische Vergleiche mit kleinen Stichproben oder wenigen Endpunktereignissen können irreführend sein

Dies ist der 27. Beitrag einer Blogserie zu „Schlüsselkonzepten zur besseren Bewertung von Aussagen zu Behandlungen“, die im Rahmen des Projektes Informed Health Choices erarbeitet wurden. Jeder der insgesamt 36 Blogbeiträge befasst sich mit einem Schlüsselkonzept, das dabei hilft, Aussagen zu Wirkungen von Behandlungen besser verstehen und einordnen zu können.

Immer mehr neue Medikamente, die besser als ihre Vorgänger sein sollen, sättigen unseren pharmazeutischen Markt. Deshalb ist es umso wichtiger, zu prüfen, ob die in Studien vorgenommenen Aussagen und Interpretationen valide sind.

Auch bewährte statistische Methoden zur Bewertung der Wirkung einer Intervention (etwa die eines Arzneimittels) können irreführend sein, wenn das Studiendesign nicht angemessen ist. Das kann zum Beispiel vorkommen, wenn für die Studie zu wenige Personen (also eine zu kleine Stichprobe) rekrutiert wurden, um eine ausreichende Anzahl von Endpunktereignissen zu liefern.

Endpunkte bezeichnen das Ziel einer klinischen Studie. Nehmen wir als hypothetisches Beispiel eine randomisierte kontrollierte Studie, die die Wirkung eines Arzneimittels auf das Risiko eines Herzinfarkts untersuchen soll. Das untersuchte Endpunktereignis wäre also sie Anzahl an Studienteilnehmern, die nach Einnahme des Arzneimittels einen Herzinfarkt erleiden.

Das Problem mit zu kleinen Probandengruppen liegt in einem Mangel an statistischer Trennschärfe oder Power. Diesen Begriff wollen wir hier genauer betrachten. Dazu aber zuerst einmal eine kurze Wiederholung von der Bedeutung statistischer Signifikanz, denn sie geht mit dem der Statistischen Power Hand in Hand:

Die statistische Signifikanz gibt an, ob sich die statistischen Ergebnisse einer Vergleichsstudie über die erhobenen Stichproben hinaus auf eine Grundgesamtheit generalisieren lassen. In anderen Worten, ob der Unterschied, der beim Vergleich zweier oder mehrerer Interventionen in einer Stichprobe von Studienteilnehmern festgestellt wurde, nicht nur auf Zufall beruht, sondern dass man auf Basis dieses Unterschiedes auch eine allgemeingültige Aussage treffen kann.

Signifikanz wird mithilfe des p-Werts – der Irrtumswahrscheinlichkeit – ausgedrückt. Für Werte von 0,05 (5%) und darunter geht man davon aus, dass der beobachtete Unterschied einen tatsächlichen Unterschied zwischen den beiden Studienpopulationen repräsentiert; man spricht von einem „statistisch signifikanten“ Unterschied. Werte über 0,05 dagegen legen nahe, dass der Unterschied sehr wohl auch auf reinem Zufall beruhen könnte – also je größer p-Wert, desto wahrscheinlicher handelt es sich um ein Zufallsergebnis. Statistiker sprechen in diesem Fall vom Risiko eines Fehlers der 1. Art. Eine Grundsatzerklärung der American Statistical Association zu p-Werten und statistischer Signifikanz kann man hier auf Englisch lesen; zu einem erweiterten Verständnis auf Deutsch hilft Wikipedia)

Die statistische Trennschärfe oder Power einer Studie dagegen ist die Wahrscheinlichkeit, dass ein real existierender Effekt auch in der Studie entdeckt wird. Je größer die statistische Power einer Studie, desto geringer ist also die Gefahr, dass sie eine (allgemeine) Wirkung nicht erkennt, obwohl diese in Wirklichkeit vorhanden ist. Statistiker sprechen hier vom Risiko eines Fehlers 2. Art, Mediziner kennen diesen Fehler beispielsweise als falsch-negatives Ergebnis eines diagnostischen Tests.

Wir haben instinktiv mehr Vertrauen in Studien mit großen Stichprobengrößen. Dafür gibt es einen guten Grund: Große Studienpopulationen minimieren den Einfluss von zufälligen Schwankungen in der Zusammensetzung der Vergleichsgruppen und erhöhen dadurch die statistische Power. Studien auf Basis kleiner Populationen liefern oft keine ausreichende Anzahl an Endpunktergebnissen . Dies schwächt die Aussagekraft der Evidenz für oder gegen das Vorhandensein eines Effekts, weil der reine Zufall größeren Einfluss auf die Ergebnisse bekommt.

Man stelle sich beispielweise eine randomisierte kontrollierte Studie (RCT) zur Wirkung eines Herzmittels mit zehn Patienten in einem Studienarm (oder in einer Vergleichsgruppe) und zehn Patienten im anderen Vergleichsarm vor, wobei der primäre Endpunkt die Anzahl von Herzinfarkten in jeder Gruppe ist. Am Ende der Studie gibt es in der Placebogruppe sechs Infarkte und in der Interventionsgruppe drei. Rein rechnerisch scheint die Intervention das relative Risiko für einen Herzinfarkt um 50% reduziert zu haben. Aber kann man sich auf dieses Ergebnis wirklich verlassen? Und wenn nicht: Weshalb?

Man muss nicht Statistiker sein um zu erkennen, dass die Anzahl der Endpunktereignisse womöglich zu klein ist, um sicher sagen zu können, dass die Differenz einen tatsächlichen Unterschied zwischen den Behandlungen und nicht die Auswirkungen des Zufalls widerspiegelt. Selbst wenn jeder Studienarm 1.000 Teilnehmer hätte, die Gesamtzahl an Herzinfarkten in jeder Gruppe jedoch dieselbe bliebe, wäre die Anzahl an Endpunktereignissen immer noch zu gering, um daraus zu folgern, dass die Wirkung der Behandlung wirklich unterschiedlich ist. Genauer gesagt, sechs von 1.000 im Vergleich zu drei von 1.000 ist immer noch zu wenig, um den Zufall mit ausreichender Verlässlichkeit auszuschließen. Die statistische Power hängt also sowohl von der Stichprobengröße, als auch von der Häufigkeit von Endpunktereignissen ab.

Eine Zusammenfassung der wichtigsten Punkte:

  • Geringe Stichprobengrößen tragen normalerweise zu einer geringen statistischen Trennschärfe bei, was wiederum sowohl die Wahrscheinlichkeit für einen Fehler 2. Art (Nichterkennen einer Wirkung der Intervention), als auch für einen Fehler 1. Art (also das Erkennen einer Wirkung, die in Wirklichkeit nicht existiert) erhöht.
  • Bei Studien mit einer geringen Anzahl an Endpunktereignissen ist die Wahrscheinlichkeit größer, dass ihre Ergebnisse rein auf Zufall basieren, selbst wenn die Studien sehr viele Teilnehmer beinhalten.
  • Eine kleine Anzahl an Endpunktereignissen kann die vermeintliche Wirkung von Interventionen aufbauschen (siehe die Halbierung von Herzinfarkten im Beispiel).

Selbstverständlich ist nichts für immer und ewig in Stein gemeißelt, besonders in der Medizin. Studien mit sehr vielen Teilnehmern mögen zwar wünschenswert sein, sind aber oft aus praktischen Gründen kaum machbar. In manchen Situationen wiederum können auch kleine Studien eine ausreichende statistische Power bieten.

Text: Lewis Saunders

Übersetzt von: Brita Fiess

Zum Originaltext

Anmerkungen:

Dieser Blog-Artikel soll in erster Linie für das Problem kleiner Stichproben und seltener Endpunktereignisse sensibilisieren und zum Nachdenken anregen. Ziel des Beitrags ist es also, zum Nachdenken anzuregen und nicht, präzise Antworten zu liefern.

Aus Gründen der besseren Lesbarkeit wird auf die gleichzeitige Verwendung männlicher und weiblicher Sprachformen verzichtet. Sämtliche Personenbezeichnungen gelten gleichermaßen für alle Geschlechter.

Literaturhinweise:

  • Haas, J. P. Sample size and power. American journal of infection control. 2012,Oct;40(8):766-767
  • Dechartres A, Trinquart L, Boutron I, Ravaud P. Influence of trial sample size on treatment effect estimates: meta-epidemiological study. BMJ. 2013 Apr;346:f2304

Kurzvideos über Grundlagen der Evidenzbasierten Medizin: Die Literatursuche

Wie macht man eine systematische Literatursuche? Wie interpretiert man das „Relative Risiko“? Was sind häufige Fehlerquellen in Studien? Das sind wichtige Fragen, die auftauchen, wenn man evidenzbasiert arbeiten will. Wir versuchen Grundlagen der Evidenzbasierten Medizin in einer Serie von Kurzvideos zu erklären.

Auch wenn der Schwerpunkt unseres Blogs meist auf Erkenntnissen aus Cochrane Reviews liegt, setzten wir gerne immer wieder mal einen Methodenschwerpunkt. In den nächsten Wochen stellen wir hier eine Serie von Kurzvideos vor, die Grundlagen der evidenzbasierten Medizin erklären. Wir haben uns bemüht dies möglichst leicht verständlich umzusetzen.

Die Videos wurden von Cochrane Österreich in Kooperation mit dem Department für Evidenzbasierte Medizin und Evaluation erstellt. Aktuell besteht die Serie aus 6 Videos.

Grundlagen der systematischen Literatursuche

Der erste Teil der Serie bietet eine kurze Einführung in die Welt der systematischen Literaturrecherche – einem Eckpfeiler gut durchgeführter systematischer Übersichtsarbeiten.

Das erste Video fasst die Grundlagen einer systematischen Literatursuche zusammen. Dabei werden die vier wichtigsten Schritte, die einen transparenten und nachvollziehbaren Suchprozess gewährleisten sollen, erläutert (Vorbereitung, Datenbank-Suche, zusätzliche Informationsquellen, Dokumentation). Um möglichst alle relevanten Studien zu finden ist, neben einer gut durchdachten, klaren Fragestellung, das Durchsuchen von zumindest zwei bibliographischen Datenbanken obligatorisch. Zu einer guten systematischen Literatursuche gehören daneben auch die Suche nach zusätzlichen Informationsquellen, wie das Sichten von Referenzlisten, das Durchforsten von Studienregistern oder das Kontaktieren von Expertinnen und Experten sowie die sorgfältige Dokumentation aller Suchschritte.

Im Zweiten Video wird erklärt wie man sogenannte Boolesche Operatoren (AND; OR; NOT) zum Verknüpfen von Suchbegriffen richtig und effizient verwendet. Das dritte Video geht auf den richtigen Einsatz von Schlagwörtern, häufig als MESH-Terms bekannt, ein.

Text: Barbara Nußbaumer-Streit, Claudia Christof

2.14 Wenn der „Mittelwert“ kein Mittel zur Erklärung der Ergebnisse ist

Um die Ergebnisse klinischer Studien zu kommunizieren, nutzt man oft Mittelwerte. Diese können jedoch leicht in die Irre führen, wie diese Folge unserer „Schlüsselkonzepte“ zeigt.

Dies ist der 26. Beitrag einer Blogserie zu „Schlüsselkonzepten zur besseren Bewertung von Aussagen zu Behandlungen“, die im Rahmen des Projektes Informed Health Choices erarbeitet wurden. Jeder der insgesamt 36 Blogbeiträge befasst sich mit einem Schlüsselkonzept, das dabei hilft, Aussagen zu Wirkungen von Behandlungen besser verstehen und einordnen zu können.

Weiterlesen