ChatGPT 可以通过体检，但未能通过心脏风险评估

据报道，ChatGPT 能够通过医学检查，但新研究表明，依赖它进行一些严重的健康评估并不是一个明智的决定，例如，如果胸痛患者需要住院治疗。
ChatGPT 很聪明，但在内心评估上失败了
在 PLOS ONE 杂志上发表的一项研究中，ChatGPT 在一项涉及数千名胸痛患者的研究中，通过对同一患者返回不一致的心脏风险水平得出了不同的结论。
华盛顿州立大学埃尔森·弗洛伊德医学院的研究员托马斯·赫斯顿博士也是这项研究的主要作者，他说，
“ChatGPT 的行为并不一致；给定完全相同的数据，ChatGPT 会给出低风险评分，下一次会给出中等风险评分，有时甚至会给出高风险评分。”
来源：WSU。
据研究人员称，这个问题可能是由于最新版本的软件 ChatGPT-4 内置的随机性程度所致，因为它有助于使其答案多样化以模仿自然语言。但 Heston 表示，这种程度的随机性不适用于医疗保健用例，而且可能很危险，因为它要求答案单一且一致。
医生需要快速评估患者病情的紧急程度，因为胸痛是医院急诊室每天都会听到的症状。
赫斯顿博士说，一些非常严重的病人可以通过症状轻松识别，但更棘手的是那些风险较低的病人，尤其是当他们需要决定某人是否已经脱离危险，可以回家接受门诊护理服务还是应该住院时。
其他系统被证明更可靠
像 ChatGPT 这样的人工智能神经网络经过大量参数和海量数据集的训练，可以在几秒钟内评估数十亿个变量，这使得它能够更快、更详细地理解复杂场景。
Heston 博士说，医疗专业人员主要使用两种模型进行心脏风险评估，分别称为 HEART 和 TIMI，他喜欢这两种软件，因为它们使用了许多变量，包括年龄、健康史和症状，而且它们依赖的变量比 ChatGPT 少。
在这项研究中，Heston 博士和他的同事、同一所大学圣路易斯分校的 Lawrence Lewis 博士使用了三组数据集，每组 10,000 个随机模拟案例。一组数据集有来自心脏量表的五个变量；另一组包括来自 TIMI 的七个变量；第三组有 44 个随机选择的变量。
对于前两个数据集，与 TIMI 和 HEART 的恒定评分相比，ChatGPT 在单个模拟案例中产生不一致的风险评估的概率为 45% 到 48%。但对于第三个数据集，尽管多次运行，ChatGPT 仍对相同案例返回了不同的结果。
Heston 博士认为，尽管这项研究的结果并不令人满意，但随着技术的进步，GenAI 在医疗保健领域的潜力将更大。据他介绍，医疗记录可以上传到系统中，如果出现紧急情况，医生可以要求 ChatGPT 提供有关患者的最重要事实。还可以要求它生成一些可能的诊断以及每种诊断的理由，这将有助于医生看清问题所在。
创作者的更多内容

实时新闻

创作者的更多内容

实时新闻

热门文章