ChatGPT tiene la capacidad de aprobar exámenes médicos, según los informes, pero no será una decisión inteligente confiar en él para algunas evaluaciones de salud graves, por ejemplo, si un paciente con dolor en el pecho necesita ser hospitalizado, según una nueva investigación.

ChatGPT es inteligente pero falla en la evaluación del corazón

En una investigación publicada en la revista PLOS ONE, ChatGPT proporcionó conclusiones diferentes al arrojar niveles de riesgo cardíaco inconsistentes para el mismo paciente en un estudio que involucró a miles de pacientes con dolor en el pecho.

Un investigador de la Facultad de Medicina Elson S. Floyd de la Universidad Estatal de Washington, el Dr. Thomas Heston, quien también fue el autor principal de la investigación, dijo:

“ChatGPT no estaba actuando de manera consistente; Dados exactamente los mismos datos, ChatGPT daría una puntuación de riesgo bajo, luego la próxima vez un riesgo intermedio y, en ocasiones, llegaría tan lejos como para dar un riesgo alto”.

Fuente: WSU.

Según los investigadores, el problema probablemente se debe al grado de aleatoriedad incorporado en la versión reciente del software, ChatGPT-4, porque le ayuda a diversificar sus respuestas para imitar el lenguaje natural. Pero Heston dice que este mismo nivel de aleatoriedad no funciona para casos de uso en atención médica y puede ser peligroso, ya que exige una respuesta única y consistente.

Los médicos deben evaluar rápidamente la urgencia de la afección del paciente, ya que los dolores en el pecho son una queja cotidiana en las salas de emergencia de los hospitales.

Algunos de los pacientes muy graves pueden identificarse fácilmente por sus síntomas, pero los más complicados son aquellos que tienen un riesgo menor, dijo el Dr. Heston, especialmente cuando necesitan decidir si alguien está lo suficientemente fuera de riesgo como para ser enviado a casa con atención ambulatoria. servicios o debe ser admitido.

Otros sistemas resultan más fiables

Una red neuronal de IA como ChatGPT, que está entrenada en una gran cantidad de parámetros con enormes conjuntos de datos, puede evaluar miles de millones de variables en segundos, lo que le brinda la capacidad de comprender un escenario complejo de manera más rápida y mucho más detallada.

El Dr. Heston dice que los profesionales médicos utilizan principalmente dos modelos para evaluaciones de riesgo cardíaco llamados HEART y TIMI, y le gusta el software porque utilizan una serie de variables, incluida la edad, el historial médico y los síntomas, y se basan en menos variables que ChatGPT.

Para el estudio de investigación, el Dr. Heston y su compañero de trabajo, el Dr. Lawrence Lewis, del campus de St. Louis de la misma universidad, utilizaron tres conjuntos de datos de 10.000 casos simulados aleatoriamente cada uno. Un conjunto de datos tenía cinco variables de la escala del corazón; otro incluyó siete variables del TIMI; y el tercero tuvo 44 variables que fueron seleccionadas al azar.

Para los dos primeros conjuntos de datos, ChatGPT produjo una evaluación de riesgos inconsistente entre el 45 % y el 48 % de las veces en los casos individuales simulados en comparación con una puntuación constante de TIMI y HEART. Pero para el tercer conjunto de datos, a pesar de ejecutarlo varias veces, ChatGPT arrojó resultados diferentes para los mismos casos.

El Dr. Heston cree que existe un mayor potencial para la GenAI en la atención sanitaria a medida que avanza la tecnología, a pesar de los resultados insatisfactorios del estudio. Según él, los registros médicos se pueden cargar en los sistemas y, si llega una emergencia, los médicos podrían pedirle a ChatGPT que proporcione los datos más importantes sobre el paciente. También se le puede pedir que genere algunos diagnósticos posibles y el razonamiento de cada uno, lo que ayudará a los médicos a detectar un problema.