Згідно з повідомленнями, ChatGPT може проходити медичне обстеження, але згідно з новими дослідженнями покладатися на нього для серйозних оцінок стану здоров’я, наприклад, якщо пацієнта з болем у грудях потребує госпіталізації, буде нерозумним.

ChatGPT розумний, але поганий у оцінці серця

У дослідженні, опублікованому в журналі PLOS ONE, ChatGPT надав різні висновки, повернувши суперечливі рівні серцевого ризику для того самого пацієнта в дослідженні, в якому брали участь тисячі пацієнтів з болем у грудях.

Дослідник медичного коледжу Елсона С. Флойда при Університеті штату Вашингтон, доктор Томас Гестон, який також був провідним автором дослідження, сказав:

«ChatGPT діяв непослідовно; враховуючи ті самі дані, ChatGPT даватиме оцінку низького ризику, потім наступного разу — проміжного ризику, а інколи він доходитиме до високого ризику».

Джерело: WSU.

На думку дослідників, проблема, ймовірно, пов’язана зі ступенем випадковості, вбудованої в останню версію програмного забезпечення ChatGPT-4, оскільки це допомагає йому урізноманітнити свої відповіді, щоб імітувати природну мову. Але Хестон каже, що цей самий рівень випадковості не працює для випадків використання в охороні здоров’я та може бути небезпечним, оскільки вимагає єдиної послідовної відповіді.

Лікарі повинні швидко оцінити невідкладність стану пацієнта, оскільки біль у грудях є повсякденною скаргою у відділеннях швидкої допомоги. 

Деякі з дуже серйозних пацієнтів можна легко ідентифікувати за їхніми симптомами, але складнішими є ті, у кого менший ризик, сказав д-р Гестон, особливо коли їм потрібно вирішити, чи хтось настільки поза ризиком, щоб його відправили додому з амбулаторним лікуванням. послуг або повинні бути прийняті.

Інші системи виявляються більш надійними

Нейронна мережа штучного інтелекту, як-от ChatGPT, яка навчається на великій кількості параметрів із величезними наборами даних, може оцінювати мільярди змінних за секунди, що дає їй можливість швидше та більш детально зрозуміти складний сценарій. 

Доктор Хестон каже, що медичні працівники здебільшого використовують дві моделі для оцінки серцевого ризику, які називаються HEART і TIMI, і йому подобається програмне забезпечення, оскільки воно використовує низку змінних, зокрема вік, історію здоров’я та симптоми, і покладається на менше змінних, ніж ChatGPT.

Для дослідження доктор Хестон і його колега доктор Лоуренс Льюїс із кампусу Сент-Луїса того ж університету використали три набори даних із 10 000 випадково змодельованих випадків у кожному. Один набір даних містив п'ять змінних зі шкали серця; інший включав сім змінних з TIMI; а третій мав 44 змінні, які були вибрані випадковим чином. 

Для перших двох наборів даних ChatGPT дав суперечливу оцінку ризику в 45–48% випадків для окремих змодельованих випадків порівняно з постійним показником TIMI та HEART. Але для третього набору даних, незважаючи на його багаторазовий запуск, ChatGPT повернув різні результати для тих самих випадків.

Доктор Хестон вважає, що потенціал GenAI в охороні здоров’я зростає з розвитком технології, незважаючи на незадовільні результати дослідження. За його словами, медичні записи можна завантажити в системи, і якщо надійде екстрена ситуація, лікарі можуть попросити ChatGPT надати найважливіші факти про пацієнта. Його також можна попросити створити кілька можливих діагнозів і обґрунтування кожного з них, що допоможе лікарям побачити проблему.