ChatGPT 可以通過體檢，但未能通過心臟風險評估

據報道，ChatGPT 能夠通過醫學檢查，但新研究表明，依賴它進行一些嚴重的健康評估並不是一個明智的決定，例如，如果胸痛患者需要住院治療。
ChatGPT 很聰明，但在內心評估上失敗了
在 PLOS ONE 雜誌上發表的一項研究中，ChatGPT 在一項涉及數千名胸痛患者的研究中，通過對同一患者返回不一致的心臟風險水平得出了不同的結論。
華盛頓州立大學埃爾森·弗洛伊德醫學院的研究員托馬斯·赫斯頓博士也是這項研究的主要作者，他說，
“ChatGPT 的行爲並不一致；給定完全相同的數據，ChatGPT 會給出低風險評分，下一次會給出中等風險評分，有時甚至會給出高風險評分。”
來源：WSU。
據研究人員稱，這個問題可能是由於最新版本的軟件 ChatGPT-4 內置的隨機性程度所致，因爲它有助於使其答案多樣化以模仿自然語言。但 Heston 表示，這種程度的隨機性不適用於醫療保健用例，而且可能很危險，因爲它要求答案單一且一致。
醫生需要快速評估患者病情的緊急程度，因爲胸痛是醫院急診室每天都會聽到的症狀。
赫斯頓博士說，一些非常嚴重的病人可以通過症狀輕鬆識別，但更棘手的是那些風險較低的病人，尤其是當他們需要決定某人是否已經脫離危險，可以回家接受門診護理服務還是應該住院時。
其他系統被證明更可靠
像 ChatGPT 這樣的人工智能神經網絡經過大量參數和海量數據集的訓練，可以在幾秒鐘內評估數十億個變量，這使得它能夠更快、更詳細地理解複雜場景。
Heston 博士說，醫療專業人員主要使用兩種模型進行心臟風險評估，分別稱爲 HEART 和 TIMI，他喜歡這兩種軟件，因爲它們使用了許多變量，包括年齡、健康史和症狀，而且它們依賴的變量比 ChatGPT 少。
在這項研究中，Heston 博士和他的同事、同一所大學聖路易斯分校的 Lawrence Lewis 博士使用了三組數據集，每組 10,000 個隨機模擬案例。一組數據集有來自心臟量表的五個變量；另一組包括來自 TIMI 的七個變量；第三組有 44 個隨機選擇的變量。
對於前兩個數據集，與 TIMI 和 HEART 的恆定評分相比，ChatGPT 在單個模擬案例中產生不一致的風險評估的概率爲 45% 到 48%。但對於第三個數據集，儘管多次運行，ChatGPT 仍對相同案例返回了不同的結果。
Heston 博士認爲，儘管這項研究的結果並不令人滿意，但隨着技術的進步，GenAI 在醫療保健領域的潛力將更大。據他介紹，醫療記錄可以上傳到系統中，如果出現緊急情況，醫生可以要求 ChatGPT 提供有關患者的最重要事實。還可以要求它生成一些可能的診斷以及每種診斷的理由，這將有助於醫生看清問題所在。
創作者的更多內容

實時新聞

創作者的更多內容

實時新聞

熱門文章