新研究表明,人工智能(AI)模型在训练过程中展现这些能力之前,早已具备一些能力。根据哈佛大学和密歇根大学的研究,这些模型直到某种方式需要这些能力时才会展示出来。

这项研究是众多旨在理解人工智能模型如何建立能力的研究之一,在展示这些能力之前。

研究分析了人工智能模型如何学习基本概念,如大小和颜色,揭示它们比大多数测试建议的更早掌握这些技能。该研究还提供了关于测量人工智能能力复杂性的见解。“当给定标准提示时,一个模型可能看起来无能,但实际上却拥有只有在特定条件下才会显现的复杂能力,”论文中写道。

研究表明,人工智能模型内化概念

哈佛大学和密歇根大学并不是第一个尝试理解人工智能模型能力的机构,Anthropic的研究人员发布了一篇名为‘字典学习’的论文。该论文讨论了在其Claude语言中将特定概念与其理解的内容之间的联系。尽管大多数这些研究采取了不同的角度,但其主要目的是理解人工智能模型。

Anthropic透露他们发现了可以与不同可解释概念相关联的特征。“我们发现了数百万个特征,这些特征似乎对应于可解释概念,从具体对象如人、国家和著名建筑到情感、写作风格和推理步骤等抽象思想,”研究揭示。

在研究过程中,研究人员进行了几项实验,使用扩散模型,这是人工智能最流行的架构之一。在实验中,他们意识到模型有独特的方式来操控基本概念。随着人工智能模型在不同阶段展示新能力,模式是一致的,并且有一个明显的转折点信号,表明何时获得新能力。

在训练过程中,模型显示它们在标准测试检测之前早约2000步掌握了概念。强概念出现在约6000步,而弱概念在约20000步时可见。在调整概念信号后,他们发现与学习速度之间存在直接相关性。

研究人员揭示了访问隐藏能力的方法

研究人员使用替代提示方法来揭示隐藏的能力,这些能力在标准测试中未被展现。隐藏出现的迅猛性质对人工智能评估和安全性产生影响。例如,传统基准可能会遗漏人工智能模型的某些能力,从而错过有益和令人担忧的能力。

在研究过程中,团队找到了某些方法,以访问人工智能模型的隐藏能力。研究将这些方法称为线性潜在干预和过度提示,因为研究人员使模型在标准测试之前展示复杂行为。研究人员还发现,人工智能模型在能够通过标准提示展示之前,操控了某些复杂特征。

例如,模型可以在被要求将“微笑的女性”或“戴帽子的男性”组合在一起之前成功生成这些图像。然而,研究表明它们早已学会了进行组合,但无法通过传统提示展示这一点。展示能力的模型可以被称为grokking,这是一种情况,在这种情况下,模型在经过延长训练后表现出完美的测试性能。然而,研究人员表示,两者之间存在关键差异。

尽管grokking发生在几次训练会话之后,并涉及对同一数据集的多个分布进行精炼,研究表明这些能力在主动学习过程中出现。研究人员指出,模型通过阶段变化而不是逐渐的表示改进,找到了操控概念的新方法。

根据研究,人工智能模型知道这些概念,只是无法展示它们。这类似于人们观看并理解一部外国电影但无法说出该语言。这表明大多数模型的能力超过它们所展示的,同时也显示出理解和控制这些能力的困难。

从零到Web3专业人士:你的90天职业启动计划