Studiendaten richtig deuten und Blindgänger erkennen

Autor: Dr. Dorothea Ranft

Eine Studie, aber viele Wege diese zu deuten. Eine Studie, aber viele Wege diese zu deuten. © yoshitaka – stock.adobe.com

Wer Studien durchführt und auswertet, kann an vielen Stellschrauben drehen. Leser von Publikationen sollten also wissen, wie die Resultate einzuordnen sind. Ein Epidemiologe erklärt, wo die wichtigsten Fallstricke liegen.

Nur einen Faktor variieren und alle anderen Einflussgrößen fixieren wie im naturwissenschaftlichen Experiment: Das wäre für Studien vielleicht wünschenswert, ist aber unerfüllbar. Es gibt jedoch andere Steuerungsmöglichkeiten, Einschlusskriterien zum Beispiel und noch viel wichtiger: die Randomisierung. Sie sorgt für die zufällige Zuordnung der Teilnehmer in verschiedene Therapiearme. Das ermöglicht eine gleichmäßige Verteilung bekannter und unbekannter Einflussgrößen. Ein beobachteter Unterschied lässt sich somit der Therapie zuschreiben, erklärte Professor Dr. Wolfgang Rathmann vom Deutschen Diabetes-Zentrum in Düsseldorf.

Die Randomisierung verhindert systematische Unausgewogenheiten zwischen den Therapiegruppen bezüglich prognostischer Faktoren. Zufällige Imbalancen bleiben aber möglich – vor allem bei kleinen Teilnehmerzahlen. Bewährt hat sich die stratifizierte Randomisation. In Multizenterstudien können die beteiligten Kliniken auf diese Weise die Patientenzuteilung für ihr Haus selbst übernehmen. Häufig wird auch nach prognostisch wichtigen Faktoren stratifiziert. Es sollten nur nicht zu viele sein, damit das Design übersichtlich bleibt.

An allen Seiten wird gezerrt

Unter den Verzerrungsmöglichkeiten bei klinischen Studien fallen vor allem vier ins Gewicht:
  • Der Selektionsbias bezeichnet systematische Differenzen in der Zusammensetzung der Probanden. Er soll durch die Randomisierung verhindert werden.
  • Der Performance-Bias beschreibt systemische Unterschiede in den Studienbedingungen. Ihn kann die Verblindung verhüten – ebenso wie den
  • Beobachter-Bias, also die systematischen Unterschiede in der Bewertung.
  • Gegen den Selektions-Bias nach Studienbeginn, die systematischen Unterschiede beim Drop-out, wirkt die ITT-Analyse.

Dreifache Verblindung bezieht den Statistiker mit ein

Systematische Unterschiede zwischen den Gruppen kann man zudem durch die Verblindung vermeiden. Schließlich hat der Glaube des Patienten an die Wirksamkeit einen großen Einfluss auf das therapeutische Ansprechen, und der Glaube des Arztes beeinflusst die Beurteilung der Behandlung. Es gibt dazu drei Studienformen: Bei der einfach blinden ist nur der Patient verblindet, bei der doppelblinden auch der Arzt und bei der dreifach-blinden zusätzlich der Statistiker. Letzteres gilt bei großen Studien inzwischen als Standard, berichtete Prof. Rathmann. Ein großes Problem stellen Protokollverletzungen dar, z.B. durch eine falsche Medikamenteneinnahme. Solche Regelwidrigkeiten kommen praktisch nie zufällig zustande, betonte Prof. Rathmann, sie hängen mit der Therapie, ihrem Erfolg oder dem Gesundheitszustand des Patienten zusammen. Die „Täter“ einfach auszuschließen, wäre ein Fehler. Besser eignet sich die Inten­tion-to-Treat(ITT)-Analyse, in die alle eingeschlossenen und randomisierten Patienten eingehen und zwar in der Gruppe, in die sie verteilt wurden – unabhängig von ihrem weiteren Schicksal (Abbruch, Wechsel etc.). Die ITT-Analyse ermittelt den unverzerrten Effekt der Therapie, kann aber vor allem bei vielen ausscheidenden Probanden dazu führen, dass die Wirksamkeit unterschätzt wird.

Die Gesunden bleiben, die Kranken gehen

Die Per-Protocol-Analyse berücksichtigt nur die vorschriftsmäßig therapierten Teilnehmer der einzelnen Arme. Es handelt sich also um einen Versuch, die Wirksamkeit einzuschätzen, wobei man diese evtl. überschätzt. Es kann auch zu Verzerrungen kommen, z.B. weil die Gesunden bleiben und die Kranken gehen. Die As-Treated-Analyse, also ausgewertet wie behandelt, hilft v.a. zur Abklärung der Sicherheit eines Arzneimittels. Zulassungsbehörden wie die amerikanische FDA fordern, z.B. von neuen Antidiabetika, oft den Nachweis einer Nichtunterlegenheit in kardiovaskulären Sicherheitsstudien. Das Novum darf also nicht wesentlich schlechter sein als die Standardbehandlung oder Placebo. Häufig nimmt man als obere Grenze des 95 %-Konfidenzintervalls eine Hazard Ratio (HR) von 1,3 an. Entsprechend wird der „Irrelevanzbereich“ festgelegt, in dem die Therapie nicht wesentlich schlechter wirkt. Das Konfidenzintervall darf also bis zur HR 1,3 vordringen, diese aber nicht überschreiten.

Ganz essenziell: die Fallzahlen

Ein Nachteil der Nichtunterlegenheitsstudien bei Typ-2-Diabetes ist die Aufnahme von Hochrisiko­populationen, um viele Ereignisse in kurzer Zeit auswerten zu können. Außerdem sind gegebenenfalls weitere Studien zum Nachweis der Überlegenheit nötig. Auch bei den beliebten Subgruppenanalysen gibt es einiges zu beachten, z.B. sie in der Zahl zu begrenzen und schon vor Studienbeginn zu spezifizieren. Außerdem erfordern die Untergruppen oft höhere Fallzahlen, was bereits bei der Planung berücksichtigt werden sollte. Die Auswertung in den Subgruppen erfolgt am besten mithilfe des Interaktionstests und nicht nur mit dem Effektschätzer. Schließlich muss man mit speziellen Fehlern rechnen: Ein falsch-positives Ergebnis entsteht z.B. bei signifikantem Interaktionseffekt, obwohl keine Interaktion stattfindet, was aber eher selten passiert. Häufig dagegen gibt es ein falsch-negatives Ergebnis. Dann ist der Interaktionseffekt nicht signifikant, obwohl eine Interaktion vorliegt. Ausgelöst wird dieses Phänomen meist durch eine zu kleine Fallzahl.

Quelle: 14. DDG*-Diabetologie-Update-Seminar

* Deutsche Diabetes Gesellschaft