Wie werden Studien bewertet?

Wie kann man herausfinden, ob eine Studie etwas taugt? Diese Frage ist vielleicht überraschend, denn viele Menschen gehen davon aus, dass jede Studie neue und verwertbare Erkenntnisse liefert. Doch so einfach ist es leider nicht: Es gibt viele Studien, die keine verlässlichen Informationen liefern.

Umso wichtiger ist es, jede einzelne Studie sorgfältig zu prüfen. Das kann zum Beispiel im Rahmen einer systematischen Übersicht geschehen, die alle verfügbaren Studien zu einer bestimmten medizinischen Frage analysiert.

Um zu bewerten, ob eine Studie verlässliche Daten liefert, muss zunächst einmal geprüft werden, weshalb sie überhaupt gemacht worden ist und welche Fragestellung sie untersucht hat. Das klingt banal, ist aber entscheidend, um erkennen zu können, ob die Studie die gestellte Forschungsfrage überhaupt beantworten kann. Zum Beispiel wird in vielen Studien ein neues Medikament im Vergleich zu einem Scheinmedikament (Placebo) getestet. Wenn es für die Erkrankung aber bereits eine wirksame Behandlung gibt, wird das neue Medikament meist mit der bereits bewährten Behandlung verglichen. Schließlich ist es für Patientinnen und Patienten wichtig, welche Behandlung die besten Erfolgsaussichten hat.

Dann wird geschaut, ob die Methodik der Studie der Forschungsfrage angemessen ist, ob sie sauber durchgeführt wurde oder ob es systematische Fehler (Bias) gab, die das Ergebnis verzerren können.

Wichtige Fragen zur Bewertung einer Studie sind:

Ist das Studiendesign zur Beantwortung der Forschungsfrage geeignet? Beispielsweise kann man mit einer Umfrage nicht herausfinden, ob ein neues Operationsverfahren besser ist als ein bewährtes. Dazu braucht man eine randomisierte kontrollierte Studie (RCT).
Wie wurden die Teilnehmenden angesprochen und ausgewählt? Wer wurde in die Studie aufgenommen und wer ausgeschlossen? Oft werden etwa Personen mit mehreren Gesundheitsproblemen ausgeschlossen. Das kann dazu führen, dass die Studienergebnisse nur bedingt auf solche Patientinnen und Patienten übertragbar sind.
Haben die Forscherinnen und Forscher die Durchführung und die Ergebnisse vollständig und verständlich beschrieben, sodass sich die Studie auch wiederholen und überprüfen ließe?
War die Teilnehmerzahl groß genug, um die Forschungsfrage beantworten zu können? Wenn Behandlungen verglichen werden, zeigen sich fast immer kleine Unterschiede in den Ergebnissen. Wissenschaftler berechnen dann, mit welcher Wahrscheinlichkeit diese Unterschiede zufällig zustande gekommen sein könnten. Bei diesen Berechnungen spielen zum einen die Größe des Unterschieds und zum anderen die Teilnehmerzahl eine Rolle: Je kleiner der Unterschied, desto mehr Teilnehmer braucht eine Studie, damit ein Unterschied als „echt“ akzeptiert werden kann.
Sind die gemessenen Endpunkte geeignet, um den Nutzen der untersuchten Behandlung zu zeigen? Zum Beispiel reicht es bei einer Studie zu einem Diabetes-Medikament nicht aus, nur den Blutzucker zu messen. Wichtig ist, ob das Medikament hilft, Spätfolgen des Diabetes wie Amputationen zu vermeiden. Ein Laborwert wie der Blutzucker (auch Surrogatparameter genannt) allein ist nicht immer aussagekräftig.
Ist die Studie lange genug gelaufen? Um etwa den Erfolg einer Ernährungsumstellung bei der Gewichtsabnahme zu bewerten, sollte das Gewicht auch noch nach einem halben oder einem Jahr nach Studienende geprüft werden – vielleicht sogar über einen noch längeren Zeitraum.
Wie viele Teilnehmende sind während der Studie ausgeschieden und warum? Wie viele Teilnehmende konnten in der Nachbeobachtung (Follow-up) nicht mehr beobachtet werden und warum? Diese Zahlen erfasst eine gute Studie und gibt an, ob dies die Ergebnisse beeinflusst hat. Das kann etwa der Fall sein, wenn viele Menschen wegen starker Nebenwirkungen die Teilnahme beenden.
War die begleitende Behandlung in den Gruppen gleich? Unterschiede kann es vor allem geben, wenn es nicht möglich war, Studienteilnehmende oder Behandelnde zu „verblinden“ – also dafür zu sorgen, dass sie nicht wussten, welcher Gruppe sie zugeteilt wurden.
War der Vergleich wirklich fair? Problematisch ist zum Beispiel, ein neues Medikament mit einem Standardmedikament zu vergleichen, wenn es in der Studie schwächer als üblich dosiert wurde.
Wurden in beiden Gruppen die gleichen Verfahren verwendet, um den Behandlungserfolg zu messen? Wenn zum Beispiel in der einen Gruppe ein Laborwert erhoben, in der anderen aber zusätzlich geröntgt wurde, kann auch dies das Ergebnis verzerren.

Um RCTs zu bewerten, sind außerdem folgende Informationen nötig:

Wie wurden die Gruppen randomisiert? War die Verteilung wirklich zufällig oder was hat die Auswahl beeinflusst?
Wurde – falls möglich – sichergestellt, dass weder die Teilnehmenden noch die Ärztinnen und Ärzte noch die Auswertenden wussten, wer in welcher Gruppe war (Verblindung)?
Sind alle Teilnehmenden während des Studienzeitraums in der Studiengruppe geblieben, der sie anfangs zugeteilt wurden? Das ist wichtig, damit die Gruppen auch bei der Auswertung am Ende der Studie noch vergleichbar sind.

Bertelsmann H, Lerzynski G, Kunz R. Kritische Bewertungen von Studien zu therapeutischen Interventionen. In: Kunz R, Ollenschläger G, Raspe H, Jonitz G, Donner-Banzhoff N (Ed). Lehrbuch evidenzbasierte Medizin in Klinik und Praxis. Köln: Deutscher Ärzte-Verlag; 2007.

Evans I, Thornton H, Chalmers I, Glasziou P. Wo ist der Beweis? Plädoyer für eine evidenzbasierte Medizin. Bern: Huber; 2013.

Greenhalgh T. Einführung in die Evidence-based Medicine: kritische Beurteilung klinischer Studien als Basis einer rationalen Medizin. Bern: Huber; 2003.

Institut für Qualität und Wirtschaftlichkeit im Gesundheitswesen (IQWiG). Glossar zu Begriffen aus dem Gesundheitswesen.

IQWiG-Gesundheitsinformationen sollen helfen, Vor- und Nachteile wichtiger Behandlungsmöglichkeiten und Angebote der Gesundheitsversorgung zu verstehen.

Ob eine der von uns beschriebenen Möglichkeiten im Einzelfall tatsächlich sinnvoll ist, kann im Gespräch mit einer Ärztin oder einem Arzt geklärt werden. Gesundheitsinformation.de kann das Gespräch mit Fachleuten unterstützen, aber nicht ersetzen. Wir bieten keine individuelle Beratung.

Unsere Informationen beruhen auf den Ergebnissen hochwertiger Studien. Sie sind von einem Team aus Medizin, Wissenschaft und Redaktion erstellt und von Expertinnen und Experten außerhalb des IQWiG begutachtet. Wie wir unsere Texte erarbeiten und aktuell halten, beschreiben wir ausführlich in unseren Methoden.

Seite kommentieren

Was möchten Sie uns mitteilen?

Wir freuen uns über jede Rückmeldung entweder über das Formular oder über gi-kontakt@iqwig.de. Ihre Bewertungen und Kommentare werden von uns ausgewertet, aber nicht veröffentlicht. Ihre Angaben werden von uns vertraulich behandelt.

Bitte beachten Sie, dass wir Sie nicht persönlich beraten können. Wir haben Hinweise zu Beratungsangeboten für Sie zusammengestellt.

Seite drucken

Wie werden Studien bewertet?

Über diese Seite

Aktualisiert am 25. März 2020

Nächste geplante Aktualisierung: 2025

Herausgeber:

Institut für Qualität und Wirtschaftlichkeit im Gesundheitswesen (IQWiG)

So halten wir Sie auf dem Laufenden

Abonnieren Sie unseren Newsletter oder Newsfeed. Auf YouTube finden Sie unsere wachsende Videosammlung.

Wichtige Fragen zur Bewertung einer Studie sind: Informationen zu $CMS_IF( ! tt_headline.isEmpty)$$CMS_VALUE(tt_headline.toText(false).convert2)$$CMS_END_IF$

Um RCTs zu bewerten, sind außerdem folgende Informationen nötig: Informationen zu $CMS_IF( ! tt_headline.isEmpty)$$CMS_VALUE(tt_headline.toText(false).convert2)$$CMS_END_IF$

Über diese Seite

Herausgeber:

Wichtige Fragen zur Bewertung einer Studie sind:

Um RCTs zu bewerten, sind außerdem folgende Informationen nötig: