華盛頓州立大學埃爾森弗洛伊德醫學院最近的研究提供了有關緊急醫療情況下人工智慧 (AI) 可能遇到的障礙的關鍵資訊。在已發表的 PLOS One 研究中,作者探討了 OpenAI 的 ChatGPT 程序在胸痛情況下確定模擬患者的心臟風險的能力。

結論不一致

結果指出,在輸入相同的患者資料時,ChatGPT 的結論存在一定程度的變異性問題。根據首席研究員 Thomas Heston 博士的說法,ChatGPT 的工作方式並不一致。當顯示完全相同的數據時,ChatGPT 會第一次給予低風險,下一次給予中等風險,甚至有時給予高風險評級。

在危及生命的危急病例中,這種差距非常嚴重,因爲在這些病例中,必要的客觀評估對於醫務人員採取準確和適當的行動具有重要意義。患者可能因不同疾病而出現胸痛。因此,醫生需要快速檢查患者並及時治療,以便給予患者適當的護理。

研究還發現,與醫生用於評估患者心臟病風險的傳統方法相比,ChatGPT 的表現較弱。如今,醫生使用雙面檢查表記錄法,大致根據 TIMI 和 HEART 協議(心臟病患者病情的程度指標)評估患者。

然而,當輸入 TIMI 和 HEART 量表中顯示的變量時,ChatGPT 的得分與實際得分的差異更大,兩個量表的一致率分別爲 45% 和 48%。假設這種差異出現在 AI 在高風險醫療案例中的決策中。在這種情況下,人們不禁要質疑 AI 的可靠性,因爲正是這些高風險的情況依賴於一致和準確的決策。

解決人工智能在醫療保健領域的侷限性和潛力

Heston 博士指出,人工智能能夠增強醫療支持,並強調必須進行徹底研究,以排除其固有的缺陷。人工智能可能是一種必要的工具,但我們的發展速度比我們理解的速度要快。因此,我們應該做大量的研究,特別是在常見的臨牀情況下。

顯然,研究結果證實了人類護士在這些環境中的重要性,儘管人工智能技術也顯示出一些優勢。以緊急情況爲例,在此期間,數字健康專家將能夠仔細閱讀患者的完整醫療報告,從而利用系統的能力以最高效率提供相關信息。除此之外,人工智能既可以參與鑑別診斷的生成,也可以與醫生一起思考具有挑戰性的病例。這將幫助醫生更有效地進行診斷過程。

儘管如此,Heston 博士認爲仍然存在一些問題。

“它可以很好地幫助你思考你不知道的事情的鑑別診斷,這可能是它最大的優勢之一。我的意思是,你可以要求它給出前五種診斷以及每種診斷背後的證據,所以它可以很好地幫助你思考問題,但它不能給出直接的答案。”

隨着人工智能的不斷髮展,深入評估其性能至關重要,特別是在醫療保健等高風險情況下,以確保患者安全並優化醫療決策。