Согласно сообщениям, ChatGPT имеет возможность проходить медицинские осмотры, но, согласно новому исследованию, будет неразумным решением полагаться на него для некоторых серьезных оценок состояния здоровья, например, если пациента с болью в груди необходимо госпитализировать.

ChatGPT умен, но не справляется с сердечной оценкой

В исследовании, опубликованном в журнале PLOS ONE, ChatGPT предоставил разные выводы, вернув противоречивые уровни сердечного риска для одного и того же пациента в исследовании, в котором участвовали тысячи пациентов с болью в груди.

Исследователь из Медицинского колледжа Элсона С. Флойда при Университете штата Вашингтон, доктор Томас Хестон, который также был ведущим автором исследования, сказал:

«ChatGPT действовал непоследовательно; учитывая те же самые данные, ChatGPT будет давать оценку низкого риска, затем в следующий раз — промежуточного риска, а иногда даже давать высокий риск».

Источник: ВГУ.

По мнению исследователей, проблема, вероятно, связана со степенью случайности, встроенной в последнюю версию программного обеспечения ChatGPT-4, поскольку она помогает разнообразить ответы, имитируя естественный язык. Но Хестон говорит, что тот же уровень случайности не работает для случаев использования в здравоохранении и может быть опасным, поскольку требует единого и последовательного ответа.

Врачам необходимо быстро оценить срочность состояния пациента, поскольку боли в груди — повседневная жалоба в отделениях неотложной помощи больниц.

Некоторых из очень серьезных пациентов можно легко идентифицировать по их симптомам, но сложнее тех, у кого более низкий риск, сказал доктор Хестон, особенно когда им нужно решить, находится ли кто-то в достаточной степени вне риска, чтобы его можно было отправить домой с амбулаторным лечением. услуги или должны быть приняты.

Другие системы оказываются более надежными

Нейронная сеть искусственного интеллекта, такая как ChatGPT, которая обучена на большом количестве параметров с огромными наборами данных, может оценивать миллиарды переменных за секунды, что дает ей возможность быстрее и гораздо более детально понимать сложный сценарий.

Доктор Хестон говорит, что медицинские работники в основном используют две модели для оценки сердечного риска, называемые HEART и TIMI, и ему нравится программное обеспечение, поскольку они используют ряд переменных, включая возраст, историю болезни и симптомы, и полагаются на меньшее количество переменных, чем ChatGPT.

Для исследования доктор Хестон и его коллега доктор Лоуренс Льюис из кампуса того же университета в Сент-Луисе использовали три набора данных по 10 000 случайно смоделированных случаев каждый. Один набор данных содержал пять переменных по сердечной шкале; другой включал семь переменных из TIMI; а в третьем было 44 переменных, выбранных случайным образом.

Для первых двух наборов данных ChatGPT давал противоречивую оценку риска в 45–48% случаев в отдельных смоделированных случаях по сравнению с постоянным показателем TIMI и HEART. Но для третьего набора данных, несмотря на его несколько запусков, ChatGPT вернул разные результаты для одних и тех же случаев.

Доктор Хестон считает, что по мере развития технологий у GenAI появляется больший потенциал в здравоохранении, несмотря на неудовлетворительные результаты исследования. По его словам, в системы можно загрузить медицинские записи, и в случае возникновения чрезвычайной ситуации врачи смогут попросить ChatGPT предоставить наиболее важные факты о пациенте. Его также можно попросить придумать несколько возможных диагнозов и обосновать каждый из них, что поможет врачам разобраться в проблеме.