Potrivit rapoartelor, ChatGPT are capacitatea de a trece examene medicale, dar nu va fi o decizie înțeleaptă să te bazezi pe el pentru unele evaluări serioase de sănătate, de exemplu, dacă un pacient cu dureri în piept trebuie internat în spital, potrivit unor noi cercetări.

ChatGPT este inteligent, dar eșuează la evaluarea inimii

Într-o cercetare publicată în jurnalul PLOS ONE, ChatGPT a oferit concluzii diferite, returnând niveluri inconsecvente de risc cardiac pentru același pacient, într-un studiu care a implicat mii de pacienți cu dureri toracice.

Un cercetător de la Colegiul de Medicină Elson S. Floyd de la Universitatea de Stat din Washington, Dr. Thomas Heston, care a fost și autorul principal al cercetării, a spus:

„ChatGPT nu a acționat într-o manieră consecventă; având exact aceleași date, ChatGPT ar da un scor de risc scăzut, apoi data viitoare un risc intermediar și, ocazional, ar merge până la un risc ridicat.”

Sursa: WSU.

Potrivit cercetătorilor, problema se datorează probabil gradului de aleatorie încorporat în versiunea recentă a software-ului, ChatGPT-4, deoarece îl ajută să-și diversifice răspunsurile pentru a imita limbajul natural. Dar Heston spune că același nivel de aleatorie nu funcționează pentru cazurile de utilizare în asistența medicală și poate fi periculos, deoarece necesită un răspuns unic și consistent.

Medicii trebuie să evalueze rapid urgența stării pacientului, deoarece durerile toracice sunt o plângere de zi cu zi în camerele de urgență ale spitalelor. 

Unii dintre pacienții foarte serioși pot fi identificați cu ușurință după simptomele lor, dar cei mai complicati sunt cei care au un risc mai mic, a spus dr. Heston, mai ales atunci când trebuie să decidă dacă cineva nu este suficient de riscant pentru a fi trimis acasă cu îngrijire în ambulatoriu. servicii sau ar trebui să fie admis.

Alte sisteme se dovedesc mai fiabile

O rețea neuronală AI precum ChatGPT, care este antrenată pe un număr mare de parametri cu seturi de date uriașe, poate evalua miliarde de variabile în câteva secunde, ceea ce îi oferă capacitatea de a înțelege un scenariu complex mai rapid și într-un mod mult mai detaliat. 

Dr. Heston spune că profesioniștii din domeniul medical folosesc în cea mai mare parte două modele pentru evaluarea riscului cardiac numit HEART și TIMI și îi place software-ul, deoarece folosesc o serie de variabile, inclusiv vârsta, istoricul de sănătate și simptomele, și se bazează pe mai puține variabile decât ChatGPT.

Pentru studiul de cercetare, Dr. Heston și colegul său, Dr. Lawrence Lewis, din campusul St. Louis al aceleiași universități, au folosit trei seturi de date de 10.000 de cazuri simulate aleatoriu fiecare. Un set de date a avut cinci variabile de la scara inimii; un altul a inclus șapte variabile din TIMI; iar al treilea a avut 44 de variabile care au fost selectate aleatoriu. 

Pentru primele două seturi de date, ChatGPT a produs o evaluare inconsecventă a riscului 45% până la 48% din timp pe cazurile individuale simulate, comparativ cu un scor constant al TIMI și HEART. Dar pentru al treilea set de date, în ciuda rulării acestuia de mai multe ori, ChatGPT a returnat rezultate diferite pentru aceleași cazuri.

Dr. Heston crede că există un potențial mai mare pentru GenAI în asistența medicală pe măsură ce tehnologia avansează, în ciuda constatărilor nesatisfăcătoare ale studiului. Potrivit acestuia, dosarele medicale pot fi încărcate în sisteme, iar dacă apare o urgență, medicii ar putea cere ChatGPT să ofere cele mai importante date despre pacient. De asemenea, i se poate cere să genereze câteva diagnostice posibile și raționamentul pentru fiecare, care îi va ajuta pe medici să treacă peste o problemă.