据报道,ChatGPT 能够通过医学检查,但新研究表明,依赖它进行一些严重的健康评估并不是一个明智的决定,例如,如果胸痛患者需要住院治疗。

ChatGPT 很聪明,但在内心评估上失败了

在 PLOS ONE 杂志上发表的一项研究中,ChatGPT 在一项涉及数千名胸痛患者的研究中,通过对同一患者返回不一致的心脏风险水平得出了不同的结论。

华盛顿州立大学埃尔森·弗洛伊德医学院的研究员托马斯·赫斯顿博士也是这项研究的主要作者,他说,

“ChatGPT 的行为并不一致;给定完全相同的数据,ChatGPT 会给出低风险评分,下一次会给出中等风险评分,有时甚至会给出高风险评分。”

来源:WSU。

据研究人员称,这个问题可能是由于最新版本的软件 ChatGPT-4 内置的随机性程度所致,因为它有助于使其答案多样化以模仿自然语言。但 Heston 表示,这种程度的随机性不适用于医疗保健用例,而且可能很危险,因为它要求答案单一且一致。

医生需要快速评估患者病情的紧急程度,因为胸痛是医院急诊室每天都会听到的症状。

赫斯顿博士说,一些非常严重的病人可以通过症状轻松识别,但更棘手的是那些风险较低的病人,尤其是当他们需要决定某人是否已经脱离危险,可以回家接受门诊护理服务还是应该住院时。

其他系统被证明更可靠

像 ChatGPT 这样的人工智能神经网络经过大量参数和海量数据集的训练,可以在几秒钟内评估数十亿个变量,这使得它能够更快、更详细地理解复杂场景。

Heston 博士说,医疗专业人员主要使用两种模型进行心脏风险评估,分别称为 HEART 和 TIMI,他喜欢这两种软件,因为它们使用了许多变量,包括年龄、健康史和症状,而且它们依赖的变量比 ChatGPT 少。

在这项研究中,Heston 博士和他的同事、同一所大学圣路易斯分校的 Lawrence Lewis 博士使用了三组数据集,每组 10,000 个随机模拟案例。一组数据集有来自心脏量表的五个变量;另一组包括来自 TIMI 的七个变量;第三组有 44 个随机选择的变量。

对于前两个数据集,与 TIMI 和 HEART 的恒定评分相比,ChatGPT 在单个模拟案例中产生不一致的风险评估的概率为 45% 到 48%。但对于第三个数据集,尽管多次运行,ChatGPT 仍对相同案例返回了不同的结果。

Heston 博士认为,尽管这项研究的结果并不令人满意,但随着技术的进步,GenAI 在医疗保健领域的潜力将更大。据他介绍,医疗记录可以上传到系统中,如果出现紧急情况,医生可以要求 ChatGPT 提供有关患者的最重要事实。还可以要求它生成一些可能的诊断以及每种诊断的理由,这将有助于医生看清问题所在。