Secondo una nuova ricerca, ChatGPT ha la capacità di superare gli esami medici, ma non sarebbe una saggia decisione affidarsi ad esso per alcune valutazioni di salute serie, ad esempio se un paziente con dolore toracico necessita di essere ricoverato in ospedale.

ChatGPT è intelligente ma non riesce a valutare il cuore

Nella ricerca pubblicata sulla rivista PLOS ONE, ChatGPT ha fornito conclusioni diverse restituendo livelli di rischio cardiaco incoerenti per lo stesso paziente in uno studio che ha coinvolto migliaia di pazienti con dolore toracico.

Un ricercatore dell’Elson S. Floyd College of Medicine della Washington State University, il dottor Thomas Heston, che è stato anche l’autore principale della ricerca, ha affermato:

“ChatGPT non si comportava in modo coerente; dati gli stessi identici dati, ChatGPT darebbe un punteggio di rischio basso, poi la volta successiva un rischio intermedio e occasionalmente arriverebbe fino a dare un rischio alto.

Fonte: WSU.

Secondo i ricercatori, il problema è probabilmente dovuto al grado di casualità incorporato nella recente versione del software, ChatGPT-4, perché lo aiuta a diversificare le sue risposte per imitare il linguaggio naturale. Ma Heston afferma che questo stesso livello di casualità non funziona per i casi d’uso nel settore sanitario e può essere pericoloso, poiché richiede una risposta unica e coerente.

I medici devono valutare rapidamente l’urgenza delle condizioni di un paziente, poiché i dolori al petto sono un disturbo quotidiano nei pronto soccorso degli ospedali. 

Alcuni dei pazienti molto gravi possono essere facilmente identificati dai loro sintomi, ma quelli più complicati sono quelli a basso rischio, ha affermato il dottor Heston, soprattutto quando devono decidere se qualcuno è sufficientemente fuori rischio da essere rimandato a casa con cure ambulatoriali. servizi o dovrebbero essere ammessi.

Altri sistemi si dimostrano più affidabili

Una rete neurale AI come ChatGPT, addestrata su un numero elevato di parametri con enormi set di dati, può valutare miliardi di variabili in secondi, il che le dà la capacità di comprendere uno scenario complesso più velocemente e in modo molto più dettagliato. 

Il dottor Heston afferma che i professionisti medici utilizzano principalmente due modelli per la valutazione del rischio cardiaco chiamati HEART e TIMI, e gli piacciono i software poiché utilizzano una serie di variabili, tra cui età, storia sanitaria e sintomi, e si basano su meno variabili rispetto a ChatGPT.

Per lo studio di ricerca, il dottor Heston e il suo collega, il dottor Lawrence Lewis, del campus di St. Louis della stessa università, hanno utilizzato tre set di dati di 10.000 casi simulati casualmente ciascuno. Un set di dati aveva cinque variabili della scala cardiaca; un altro includeva sette variabili del TIMI; e il terzo aveva 44 variabili selezionate casualmente. 

Per i primi due set di dati, ChatGPT ha prodotto una valutazione del rischio incoerente dal 45% al ​​48% delle volte sui singoli casi simulati rispetto a un punteggio costante di TIMI e HEART. Ma per il terzo set di dati, nonostante sia stato eseguito più volte, ChatGPT ha restituito risultati diversi per gli stessi casi.

Il dottor Heston ritiene che il potenziale della GenAI nel settore sanitario sia maggiore man mano che la tecnologia avanza, nonostante i risultati insoddisfacenti dello studio. Secondo lui, le cartelle cliniche possono essere caricate nei sistemi e, in caso di emergenza, i medici potrebbero chiedere a ChatGPT di fornire i fatti più importanti sul paziente. Può anche essere chiesto di generare alcune possibili diagnosi e il ragionamento per ciascuna di esse, che aiuterà i medici a risolvere un problema.