华盛顿州立大学埃尔森弗洛伊德医学院最近的研究提供了有关紧急医疗情况下人工智慧 (AI) 可能遇到的障碍的关键资讯。在已发表的 PLOS One 研究中,作者探讨了 OpenAI 的 ChatGPT 程序在胸痛情况下确定模拟患者的心脏风险的能力。

结论不一致

结果指出,在输入相同的患者资料时,ChatGPT 的结论存在一定程度的变异性问题。根据首席研究员 Thomas Heston 博士的说法,ChatGPT 的工作方式并不一致。当显示完全相同的数据时,ChatGPT 会第一次给予低风险,下一次给予中等风险,甚至有时给予高风险评级。

在危及生命的危急病例中,这种差距非常严重,因为在这些病例中,必要的客观评估对于医务人员采取准确和适当的行动具有重要意义。患者可能因不同疾病而出现胸痛。因此,医生需要快速检查患者并及时治疗,以便给予患者适当的护理。

研究还发现,与医生用于评估患者心脏病风险的传统方法相比,ChatGPT 的表现较弱。如今,医生使用双面检查表记录法,大致根据 TIMI 和 HEART 协议(心脏病患者病情的程度指标)评估患者。

然而,当输入 TIMI 和 HEART 量表中显示的变量时,ChatGPT 的得分与实际得分的差异更大,两个量表的一致率分别为 45% 和 48%。假设这种差异出现在 AI 在高风险医疗案例中的决策中。在这种情况下,人们不禁要质疑 AI 的可靠性,因为正是这些高风险的情况依赖于一致和准确的决策。

解决人工智能在医疗保健领域的局限性和潜力

Heston 博士指出,人工智能能够增强医疗支持,并强调必须进行彻底研究,以排除其固有的缺陷。人工智能可能是一种必要的工具,但我们的发展速度比我们理解的速度要快。因此,我们应该做大量的研究,特别是在常见的临床情况下。

显然,研究结果证实了人类护士在这些环境中的重要性,尽管人工智能技术也显示出一些优势。以紧急情况为例,在此期间,数字健康专家将能够仔细阅读患者的完整医疗报告,从而利用系统的能力以最高效率提供相关信息。除此之外,人工智能既可以参与鉴别诊断的生成,也可以与医生一起思考具有挑战性的病例。这将帮助医生更有效地进行诊断过程。

尽管如此,Heston 博士认为仍然存在一些问题。

“它可以很好地帮助你思考你不知道的事情的鉴别诊断,这可能是它最大的优势之一。我的意思是,你可以要求它给出前五种诊断以及每种诊断背后的证据,所以它可以很好地帮助你思考问题,但它不能给出直接的答案。”

随着人工智能的不断发展,深入评估其性能至关重要,特别是在医疗保健等高风险情况下,以确保患者安全并优化医疗决策。