ChatGPT a la capacité de réussir des examens médicaux, selon les rapports, mais ce ne serait pas une sage décision de s'appuyer sur lui pour certaines évaluations de santé sérieuses, par exemple si un patient souffrant de douleurs thoraciques doit être hospitalisé, selon de nouvelles recherches.

ChatGPT est intelligent mais échoue fondamentalement à l'évaluation

Dans une recherche publiée dans la revue PLOS ONE, ChatGPT a fourni des conclusions différentes en renvoyant des niveaux de risque cardiaque incohérents pour le même patient dans une étude portant sur des milliers de patients souffrant de douleurs thoraciques.

Un chercheur du Elson S. Floyd College of Medicine de l'Université de l'État de Washington, le Dr Thomas Heston, qui était également l'auteur principal de la recherche, a déclaré :

« ChatGPT n'agissait pas de manière cohérente ; avec exactement les mêmes données, ChatGPT donnerait un score de risque faible, puis la prochaine fois un risque intermédiaire, et parfois il irait jusqu'à donner un risque élevé.

Source : WSU.

Selon les chercheurs, le problème est probablement dû au degré d’aléatoire intégré à la version récente du logiciel, ChatGPT-4, car il l’aide à diversifier ses réponses pour imiter le langage naturel. Mais Heston affirme que ce même niveau de hasard ne fonctionne pas pour les cas d’utilisation dans le domaine de la santé et peut être dangereux, car il exige une réponse unique et cohérente.

Les médecins doivent évaluer rapidement l’urgence de l’état d’un patient, car les douleurs thoraciques sont une plainte quotidienne aux urgences des hôpitaux.

Certains des patients très graves peuvent être facilement identifiés par leurs symptômes, mais les plus délicats sont ceux qui présentent un risque moindre, a déclaré le Dr Heston, en particulier lorsqu'ils doivent décider si une personne est suffisamment hors de risque pour être renvoyée chez elle avec des soins ambulatoires. services ou devrait être admis.

D'autres systèmes s'avèrent plus fiables

Un réseau neuronal d’IA comme ChatGPT, entraîné sur un grand nombre de paramètres avec d’énormes ensembles de données, peut évaluer des milliards de variables en quelques secondes, ce qui lui donne la possibilité de comprendre un scénario complexe plus rapidement et de manière beaucoup plus détaillée.

Le Dr Heston dit que les professionnels de la santé utilisent principalement deux modèles pour l'évaluation du risque cardiaque appelé HEART et TIMI, et il aime les logiciels car ils utilisent un certain nombre de variables, notamment l'âge, les antécédents médicaux et les symptômes, et s'appuient sur moins de variables que ChatGPT.

Pour l'étude de recherche, le Dr Heston et son collègue, le Dr Lawrence Lewis, du campus de Saint-Louis de la même université, ont utilisé trois ensembles de données de 10 000 cas chacun simulés au hasard. Un ensemble de données comportait cinq variables de l'échelle cardiaque ; un autre comprenait sept variables du TIMI ; et le troisième comportait 44 variables sélectionnées au hasard.

Pour les deux premiers ensembles de données, ChatGPT a produit une évaluation des risques incohérente dans 45 à 48 % des cas sur les cas individuels simulés, par rapport à un score constant de TIMI et HEART. Mais pour le troisième ensemble de données, malgré son exécution plusieurs fois, ChatGPT a renvoyé des résultats différents pour les mêmes cas.

Le Dr Heston pense qu’il existe un plus grand potentiel pour GenAI dans les soins de santé à mesure que la technologie progresse, malgré les résultats insatisfaisants de l’étude. Selon lui, les dossiers médicaux peuvent être téléchargés sur les systèmes et, en cas d'urgence, les médecins pourraient demander à ChatGPT de fournir les informations les plus importantes sur le patient. Il peut également être demandé de générer certains diagnostics possibles et le raisonnement pour chacun, ce qui aidera les médecins à comprendre un problème.