KI in der Dermatologie Per Chatbot zur Diagnose

Autor: Dr. Melanie Söchtig

Noch sind Ärzt:innen in Sachen dermatologische Diagnostik besser als ChatGPT. Noch sind Ärzt:innen in Sachen dermatologische Diagnostik besser als ChatGPT. © Gefo – stock.adobe.com

Das Internet ist eine wichtige Informationsquelle für Patienten mit dermatologischen Beschwerden. Viele von ihnen klagen jedoch über mangelnde Möglichkeiten des direkten Austauschs im Rahmen von Chats. Eine potenzielle Lösung aus dem Bereich der Künstlichen Intelligenz sind die so genannten „large language models“ (LLM) zu denen auch ChatGPT gehört.

Der Chat Generative Pre-Trained Transformer, wie ChatGPT mit vollem Namen heißt, ist eine leicht zugängliche Plattform mit wöchentlich mehr als 100 Millionen Nutzern. Die aktuelle Version (GPT-4) ermöglicht auch das Analysieren von klinischen Bildern. Forschende aus Dänemark haben untersucht, wie gut sich die KI als Diagnose-Instrument und Informationsquelle im dermatologischen Kontext eignet.

Die Wissenschaftler wählten 15 klinische Bilder von verschiedenen häufigen sowie seltenen Hautkrankheiten aus dem dänischen Web-Atlas „Danderm“ aus und luden sie in die ChatGPT-Version GPT-4 hoch. Danach befragten sie den Chatbot zu einer Beschreibung der dermatologischen Erkrankung, einer möglichen Diagnose und Behandlungsoptionen. Im Anschluss bewerteten dermatologisch tätige Ärzte die Antworten auf einer Skala von 1 bis 5 hinsichtlich Genauigkeit, Relevanz und Informationstiefe. Zudem machten sie Angaben zur Qualität der Bilder (Skala von 1 bis 10).

Insgesamt nahmen 23 Ärzte an der Studie teil, mehrheitlich Fachärzte für Dermatologie (83 %), von denen 79 % an einer Universitätsklinik und 21 % in einer Privatpraxis tätig waren. Bei den übrigen Teilnehmenden (17 %) handelte es sich um Assistenzärzte. Die meisten Befragten (87 %) waren seit mehr als fünf Jahren in dem Fachgebiet tätig, knapp die Hälfte (48 %) sogar seit mehr als zehn Jahren.

Die Qualität der Bilder bewerteten die Ärzte mit der maximalen Punktzahl von 10, während die Gesamtbewertung der Antworten von ChatGPT weniger gut ausfiel: Im Median vergaben die Befragten 2 Punkte für die Relevanz, 3 Punkte für die Genauigkeit und 2 Punkte für die Informationstiefe der durch ChatGPT generierten Antworten. Besonders schlecht schnitt die KI in der Untersuchung bei u. a. Hidradenitis suppurativa, Rosazea, Erythema multiforme, Granuloma anulare und Mycosis fungoides ab.

Quelle: Nielsen JPS et al. JEADV Clin Pract 2024; DOI: 10.1002/jvc2.459