Künstliche Intelligenz Frag doch den Chatbot
Angesichts der steigenden Popularität KI-gestützter Sprachmodelle nutzen Laien diese immer öfter, um medizinische Informationen zu erfragen. Aber wie zuverlässig sind die Programme in Bezug auf häufige Krebserkrankungen? Wissenschaftler:innen um Alexander Pan, SUNY Downstate Health Sciences University, New York, testeten die Antworten von vier Chatbots (ChatGPT Version 3.5, Perplexity, Chatsonic und Bing AI) zu folgenden Themen:1
- Lungenkrebs
- Hautkrebs
- CRC
- Mammakarzinom
- Prostatakarzinom
Dabei gaben sie die fünf populärsten Google-Suchanfragen zu jeder Entität ein. Die Forschenden bewerteten Qualität, Verständlichkeit, Lesbarkeit und praktischen Nutzwert der erhaltenen Antworten.
Die totalen medianen DISCERN-Scores betrugen 4–5, was einer hohen Qualität der gelieferten Auskünfte entspricht. Gemäß den NCCN-Leitlinien enthielten die KI-Resultate keine Fehlinformationen. Die PEMAT-Scores im Bereich Verständlichkeit lagen im mittleren Bereich (Gesamtmedian aller Modelle 66,7 %), während sie für die praktische Anwendbarkeit schlecht ausfielen (Median aller Modelle 20,0 %).
Im Mittel waren die Antworten der verschiedenen Chatbots 91–146 Worte lang und auf Universitätsniveau formuliert. Mit Ausnahme von ChatGPT zitierten alle Programme Quellen, unter denen Nutzer:innen weitere Informationen finden könnten. Zu den häufigsten Referenzen zählten beispielsweise Internetauftritte der Mayo Clinic und der Amerikanischen Krebsgesellschaft, die die Autor:innen als verlässlich beurteilen.
Verwendete Messgrößen
Der DISCERN-Score wurde entwickelt, um die Qualität von schriftlichen Informationen über Behandlungsoptionen zu bewerten. Er liegt zwischen 1 (niedrig) und 5 (hoch).
Der PEMAT-Score dient ebenfalls dazu, Informationsmaterialien für Patient:innen zu beurteilen und untergliedert sich in zwei Teilbereiche (Verständlichkeit, praktische Umsetzbarkeit). Er nimmt jeweils Werte zwischen 0 % und 100 % an, wobei ein möglichst hohes Ergebnis erreicht werden sollte.
Die Forschenden schlussfolgern, KI-basierte Sprachmodelle lieferten im Allgemeinen korrekte Auskünfte zu fünf häufigen Krebserkrankungen. Sie kritisieren allerdings, dass die Texte eine hohe Lesekompetenz voraussetzen und der praxisbezogene Nutzwert für Laien beschränkt bleibt. Außerdem fielen die Antworten kurz aus und die Autor:innen vermuten, dass sich viele Konzepte ohne Abbildungen nur schwer erklären lassen. Somit eignen sich Chatbots ihrer Ansicht nach als Hilfsmittel, aber eher nicht als primäre Quelle für medizinische Informationen.
Prof. Dr. Dr. Atul J. Butte von der University of California in San Francisco erinnerte daran, dass ChatGPT in einer anderen Studie teilweise nicht-leitliniengerechte Therapien vorschlug und 12,5 % der Antworten als „Halluzinationen“ zu bewerten waren.2 Der Kommentator verwies auf die Möglichkeit, spezialisierte KIs für medizinische Informationen zu entwickeln. Das wahre Potenzial liege darin, die Modelle mit Daten aus den besten Krebszentren zu trainieren und dieses Wissen mithilfe digitaler Anwendungen zu verbreiten. So könnten mehr Patient:innen von der Expertise profitieren, unabhängig ihres Wohnorts oder sozioökonomischem Status.
Quellen: 1. Pan A et al. JAMA Oncol 2023; DOI: 10.1001/jamaoncol.2023.2947
2. Butte AJ. JAMA Oncol 2023; DOI: 10.1001/jamaoncol.2023.2867