研究人员发现证据表明,人工智能模型宁愿撒谎也不愿承认自己不知道某件事的耻辱。随着规模和复杂性的增加,这种行为似乎更加明显。


《自然》杂志发表的一项新研究发现,法学硕士的学业越大,他们在特定任务上的可信度就越低。他们撒谎的方式和我们理解谎言的方式并不完全一样,但他们倾向于自信地回答,即使答案在事实上并不正确,因为他们被训练相信答案是正确的。


这种现象被研究人员称为“ultra-crepidarian”——一个 19 世纪的词,基本上意味着对自己一无所知的事情发表意见——描述了法学硕士超越他们的知识基础来提供答案。研究指出,“当法学硕士不知道但仍在回答时,他们失败的比例更高。”换句话说,这些模型没有意识到自己的无知。


该研究考察了多个 LLM 系列的性能,包括 OpenAI 的 GPT 系列、Meta 的 LLaMA 模型和 BigScience 的 BLOOM 套件,突显了不断提升的模型能力与可靠的实际性能之间的脱节。


虽然较大的 LLM 通常在复杂任务上表现出更好的性能,但这种改进并不一定意味着一致的准确性,尤其是在较简单的任务上。这种“难度不一致”——LLM 在人类认为简单的任务上失败的现象——破坏了这些模型可靠操作区域的概念。即使采用越来越复杂的训练方法,包括扩大模型大小和数据量以及通过人工反馈塑造模型,研究人员仍未找到消除这种不一致的保证方法。


这项研究的结果与人工智能发展的传统观点相悖。传统上,人们认为增加模型的大小、数据量和计算能力会带来更准确、更可靠的输出。然而,研究表明,扩大规模实际上可能会加剧可靠性问题。


较大的模型表现出任务回避的明显减少,这意味着它们不太可能回避难题。虽然乍一看这似乎是一个积极的发展,但它也有一个明显的缺点:这些模型也更容易给出错误的答案。在下图中,很容易看到模型如何给出错误的结果(红色)而不是回避任务(浅蓝色)。正确答案显示为深蓝色。




研究人员指出:“目前,缩放和塑造会以更多的错误来换取避免错误。”但解决这个问题并不像训练模型更加谨慎那么简单。研究人员表示:“对于塑造好的模型来说,避免错误显然要低得多,但错误率要高得多。”然而,一个被训练以避免执行任务的模型最终可能会变得更懒惰或被削弱——正如用户在不同的顶级 LLM(如 ChatGPT 或 Claude)中所指出的那样。


研究人员发现,这种现象并不是因为 LLM 学位越高,就无法出色地完成简单的任务,而是因为他们接受的训练能够更熟练地完成复杂的任务。这就像一个习惯于只吃美食的人突然很难做自制烧烤或传统蛋糕。在庞大而复杂的数据集上训练的人工智能模型更容易错过基本技能。


模型的明显自信使问题更加严重。用户通常很难分辨人工智能何时提供准确信息,何时自信地散布错误信息。这种过度自信可能导致对人工智能输出的过度依赖,尤其是在医疗保健或法律咨询等关键领域。



研究人员还指出,扩大模型的可靠性在不同领域存在波动。虽然性能可能在某一领域有所提高,但同时在另一个领域可能会下降,从而产生一种打地鼠效应,使得很难建立任何“安全”的操作区域。“回避答案的百分比很少会比错误答案的百分比上升得更快。读数很明显:错误仍然变得更加频繁。这代表了可靠性的退化,”研究人员写道。


这项研究凸显了当前人工智能训练方法的局限性。旨在塑造人工智能行为的强化学习(RLHF)等技术实际上可能加剧了这一问题。这些方法似乎降低了模型逃避它们无法处理的任务的倾向——还记得臭名昭著的“作为人工智能语言模型,我不能吗?”——无意中鼓励了更频繁的错误。



快速工程,即为 AI 系统设计有效查询的艺术,似乎是解决这些问题的关键技能。即使是像 GPT-4 这样非常先进的模型也会对问题的表述方式表现出敏感性,轻微的变化可能会导致截然不同的输出。


在比较不同的 LLM 系列时,这一点更容易注意到:例如,Claude 3.5 Sonnet 需要与 OpenAI o1 完全不同的提示风格才能获得最佳结果。不恰当的提示最终可能会使模型更容易或更不容易产生幻觉。


长期以来,人类监督被认为是防止人工智能出错的保障,但这可能不足以解决这些问题。研究发现,即使在相对简单的领域,用户也经常难以纠正错误的模型输出,因此依靠人类判断作为安全措施可能不是正确模型训练的最终解决方案。研究人员观察到:“用户可以识别这些高难度实例,但仍然会频繁犯下从错误到正确的监督错误。”


这项研究的结果对人工智能发展的当前轨迹提出了质疑。尽管人们仍在努力开发更大、更强大的模型,但这项研究表明,就人工智能的可靠性而言,规模越大并不一定越好。


目前,各公司更注重数据质量而非数量。例如,Meta 最新的 Llama 3.2 模型比前几代模型在更多参数上训练后取得了更好的结果。幸运的是,这让它们变得不那么像人类,所以当你问它们世界上最基本的事情让它们看起来很蠢时,它们会承认失败。