據報道,ChatGPT 能夠通過醫學檢查,但新研究表明,依賴它進行一些嚴重的健康評估並不是一個明智的決定,例如,如果胸痛患者需要住院治療。

ChatGPT 很聰明,但在內心評估上失敗了

在 PLOS ONE 雜誌上發表的一項研究中,ChatGPT 在一項涉及數千名胸痛患者的研究中,通過對同一患者返回不一致的心臟風險水平得出了不同的結論。

華盛頓州立大學埃爾森·弗洛伊德醫學院的研究員托馬斯·赫斯頓博士也是這項研究的主要作者,他說,

“ChatGPT 的行爲並不一致;給定完全相同的數據,ChatGPT 會給出低風險評分,下一次會給出中等風險評分,有時甚至會給出高風險評分。”

來源:WSU。

據研究人員稱,這個問題可能是由於最新版本的軟件 ChatGPT-4 內置的隨機性程度所致,因爲它有助於使其答案多樣化以模仿自然語言。但 Heston 表示,這種程度的隨機性不適用於醫療保健用例,而且可能很危險,因爲它要求答案單一且一致。

醫生需要快速評估患者病情的緊急程度,因爲胸痛是醫院急診室每天都會聽到的症狀。

赫斯頓博士說,一些非常嚴重的病人可以通過症狀輕鬆識別,但更棘手的是那些風險較低的病人,尤其是當他們需要決定某人是否已經脫離危險,可以回家接受門診護理服務還是應該住院時。

其他系統被證明更可靠

像 ChatGPT 這樣的人工智能神經網絡經過大量參數和海量數據集的訓練,可以在幾秒鐘內評估數十億個變量,這使得它能夠更快、更詳細地理解複雜場景。

Heston 博士說,醫療專業人員主要使用兩種模型進行心臟風險評估,分別稱爲 HEART 和 TIMI,他喜歡這兩種軟件,因爲它們使用了許多變量,包括年齡、健康史和症狀,而且它們依賴的變量比 ChatGPT 少。

在這項研究中,Heston 博士和他的同事、同一所大學聖路易斯分校的 Lawrence Lewis 博士使用了三組數據集,每組 10,000 個隨機模擬案例。一組數據集有來自心臟量表的五個變量;另一組包括來自 TIMI 的七個變量;第三組有 44 個隨機選擇的變量。

對於前兩個數據集,與 TIMI 和 HEART 的恆定評分相比,ChatGPT 在單個模擬案例中產生不一致的風險評估的概率爲 45% 到 48%。但對於第三個數據集,儘管多次運行,ChatGPT 仍對相同案例返回了不同的結果。

Heston 博士認爲,儘管這項研究的結果並不令人滿意,但隨着技術的進步,GenAI 在醫療保健領域的潛力將更大。據他介紹,醫療記錄可以上傳到系統中,如果出現緊急情況,醫生可以要求 ChatGPT 提供有關患者的最重要事實。還可以要求它生成一些可能的診斷以及每種診斷的理由,這將有助於醫生看清問題所在。