Berichten zufolge ist ChatGPT in der Lage, medizinische Untersuchungen zu bestehen, doch neuen Forschungsergebnissen zufolge ist es keine kluge Entscheidung, sich bei ernsthaften Gesundheitsuntersuchungen darauf zu verlassen, beispielsweise wenn ein Patient mit Brustschmerzen ins Krankenhaus eingeliefert werden muss.

ChatGPT ist clever, scheitert aber bei der Herzbewertung

In einer im Fachmagazin PLOS ONE veröffentlichten Studie gelangte ChatGPT zu unterschiedlichen Schlussfolgerungen, da es in einer Studie mit Tausenden von Patienten mit Brustschmerzen inkonsistente Herzrisikowerte für denselben Patienten lieferte.

Ein Forscher am Elson S. Floyd College of Medicine der Washington State University, Dr. Thomas Heston, der auch der Hauptautor der Studie war, sagte:

„ChatGPT reagierte nicht konsistent; bei den exakt gleichen Daten vergab ChatGPT zuerst ein niedriges Risiko, dann ein mittleres Risiko und gelegentlich ging es sogar so weit, ein hohes Risiko anzugeben.“

Quelle: WSU.

Laut den Forschern liegt das Problem wahrscheinlich am Grad der Zufälligkeit, der in die neueste Version der Software, ChatGPT-4, eingebaut ist, da dieser ihr hilft, ihre Antworten so zu diversifizieren, dass sie natürliche Sprache nachahmen. Heston sagt jedoch, dass dieser Grad der Zufälligkeit für Anwendungsfälle im Gesundheitswesen nicht funktioniert und gefährlich sein kann, da er eine einzige, konsistente Antwort erfordert.

Da Brustschmerzen in der Notaufnahme eines Krankenhauses zu den alltäglichen Beschwerden gehören, müssen Ärzte die Dringlichkeit des Zustands eines Patienten schnell einschätzen.

Einige Patienten mit sehr schweren Erkrankungen können leicht anhand ihrer Symptome identifiziert werden, schwieriger seien jedoch diejenigen mit einem geringeren Risiko, sagte Dr. Heston. Dies gelte insbesondere dann, wenn entschieden werden müsse, ob das Risiko einer Person so gering sei, dass sie mit ambulanter Pflege nach Hause geschickt werden könne, oder ob eine stationäre Behandlung notwendig sei.

Andere Systeme erweisen sich als zuverlässiger

Ein KI-neuronales Netzwerk wie ChatGPT, das anhand einer großen Anzahl von Parametern und riesigen Datensätzen trainiert wird, kann Milliarden von Variablen in Sekundenschnelle auswerten und ist dadurch in der Lage, ein komplexes Szenario schneller und viel detaillierter zu verstehen.

Dr. Heston sagt, dass Mediziner für die Beurteilung des Herzrisikos hauptsächlich zwei Modelle namens HEART und TIMI verwenden. Ihm gefällt die Software, da sie eine Reihe von Variablen verwendet, darunter Alter, Gesundheitsgeschichte und Symptome, und sich auf weniger Variablen stützt als ChatGPT.

Für die Forschungsstudie verwendeten Dr. Heston und sein Kollege Dr. Lawrence Lewis vom St. Louis-Campus derselben Universität drei Datensätze mit jeweils 10.000 zufällig simulierten Fällen. Ein Datensatz enthielt fünf Variablen aus der Herzskala, ein anderer sieben Variablen aus dem TIMI und der dritte hatte 44 zufällig ausgewählte Variablen.

Bei den ersten beiden Datensätzen lieferte ChatGPT in 45 % bis 48 % der Fälle eine inkonsistente Risikobewertung der einzelnen simulierten Fälle im Vergleich zu einem konstanten TIMI- und HEART-Score. Beim dritten Datensatz lieferte ChatGPT jedoch trotz mehrmaliger Ausführung für dieselben Fälle unterschiedliche Ergebnisse.

Trotz der unbefriedigenden Ergebnisse der Studie glaubt Dr. Heston, dass GenAI im Gesundheitswesen mit fortschreitender Technologie ein größeres Potenzial hat. Ihm zufolge können Krankenakten in die Systeme hochgeladen werden, und im Notfall können Ärzte ChatGPT bitten, die wichtigsten Fakten über den Patienten anzugeben. Man kann es auch bitten, einige mögliche Diagnosen und die Begründung für jede Diagnose zu erstellen, was den Ärzten helfen wird, ein Problem zu durchschauen.