Theo báo cáo, ChatGPT có khả năng vượt qua các bài kiểm tra y tế, nhưng sẽ không phải là một quyết định sáng suốt nếu dựa vào nó để thực hiện một số đánh giá sức khỏe nghiêm trọng, chẳng hạn như nếu một bệnh nhân bị đau ngực cần phải nhập viện, theo nghiên cứu mới.

ChatGPT thông minh nhưng thất bại ở khâu đánh giá trái tim

Trong nghiên cứu được công bố trên tạp chí PLOS ONE, ChatGPT đã đưa ra các kết luận khác nhau bằng cách trả về mức độ nguy cơ tim không nhất quán cho cùng một bệnh nhân trong một nghiên cứu có sự tham gia của hàng nghìn bệnh nhân đau ngực.

Một nhà nghiên cứu tại Đại học Y Elson S. Floyd của Đại học Bang Washington, Tiến sĩ Thomas Heston, đồng thời là tác giả chính của nghiên cứu, cho biết,

“ChatGPT đã hoạt động không nhất quán; với cùng một dữ liệu, ChatGPT sẽ cho điểm rủi ro thấp, lần sau là rủi ro trung bình và đôi khi nó sẽ cho điểm rủi ro cao.”

Nguồn: WSU.

Theo các nhà nghiên cứu, vấn đề có thể là do mức độ ngẫu nhiên được tích hợp trong phiên bản gần đây của phần mềm, ChatGPT-4, vì nó giúp phần mềm đa dạng hóa các câu trả lời bắt chước ngôn ngữ tự nhiên. Nhưng Heston nói rằng mức độ ngẫu nhiên tương tự này không hiệu quả đối với các trường hợp sử dụng trong chăm sóc sức khỏe và có thể nguy hiểm vì nó đòi hỏi một câu trả lời nhất quán, duy nhất.

Các bác sĩ cần nhanh chóng đánh giá mức độ khẩn cấp của tình trạng bệnh nhân, vì đau ngực là lời phàn nàn hàng ngày trong phòng cấp cứu của bệnh viện.

Tiến sĩ Heston cho biết, một số bệnh nhân rất nghiêm trọng có thể dễ dàng được xác định bằng các triệu chứng của họ, nhưng những người khó khăn hơn là những người có nguy cơ thấp hơn, đặc biệt là khi họ cần quyết định xem ai đó có đủ nguy cơ để được đưa về nhà chăm sóc ngoại trú hay không. dịch vụ hoặc nên được thừa nhận.

Các hệ thống khác tỏ ra đáng tin cậy hơn

Mạng nơ-ron AI như ChatGPT, được đào tạo về số lượng lớn tham số với bộ dữ liệu khổng lồ, có thể đánh giá hàng tỷ biến trong vài giây, mang lại khả năng hiểu một kịch bản phức tạp nhanh hơn và chi tiết hơn nhiều.

Tiến sĩ Heston nói rằng các chuyên gia y tế chủ yếu sử dụng hai mô hình để đánh giá nguy cơ tim có tên là HEART và TIMI. Ông thích phần mềm vì chúng sử dụng một số biến số, bao gồm tuổi tác, tiền sử sức khỏe và các triệu chứng, đồng thời chúng dựa vào ít biến số hơn ChatGPT.

Đối với nghiên cứu, Tiến sĩ Heston và đồng nghiệp của ông, Tiến sĩ Lawrence Lewis, thuộc cơ sở St. Louis của cùng một trường đại học, đã sử dụng ba bộ dữ liệu gồm 10.000 trường hợp được mô phỏng ngẫu nhiên, mỗi bộ dữ liệu. Một bộ dữ liệu có năm biến số từ thang đo tim; một biến khác bao gồm bảy biến từ TIMI; và thứ ba có 44 biến được chọn ngẫu nhiên.

Đối với hai tập dữ liệu đầu tiên, ChatGPT đưa ra đánh giá rủi ro không nhất quán từ 45% đến 48% thời gian đối với từng trường hợp mô phỏng so với điểm số không đổi của TIMI và HEART. Nhưng đối với tập dữ liệu thứ ba, mặc dù đã chạy nhiều lần nhưng ChatGPT vẫn trả về các kết quả khác nhau cho cùng một trường hợp.

Tiến sĩ Heston cho rằng GenAI có tiềm năng lớn hơn trong lĩnh vực chăm sóc sức khỏe khi công nghệ tiến bộ, bất chấp những kết quả nghiên cứu không đạt yêu cầu. Theo ông, hồ sơ y tế có thể được tải lên hệ thống và nếu trường hợp khẩn cấp xảy ra, các bác sĩ có thể yêu cầu ChatGPT cung cấp những thông tin quan trọng nhất về bệnh nhân. Nó cũng có thể được yêu cầu đưa ra một số chẩn đoán có thể có và lý do cho từng chẩn đoán, điều này sẽ giúp các bác sĩ nhìn thấu vấn đề.