根据哈佛大学和密歇根大学的最新研究,现代人工智能模型具有在训练过程中突然且持续出现的隐藏能力,但这些能力保持隐藏状态,直到以特定方式提示。


该研究分析了人工智能系统如何学习颜色和大小等概念,结果表明,模型掌握这些技能的时间往往比标准测试所显示的要早得多——这一发现对人工智能的安全和发展具有重要意义。


研究报告指出:“我们的结果表明,衡量人工智能系统的能力比以前想象的要复杂得多。一个模型在得到标准提示时可能显得无能,但实际上却拥有只有在特定条件下才会出现的复杂能力。”


这一进步与日益增多的研究成果相结合,旨在揭开人工智能模型如何发展能力的神秘面纱。


据 Decrypt 今年早些时候报道,人类学研究人员公布了“词典学习”技术,该技术将克劳德语言模型中的数百万个神经连接映射到人工智能理解的特定概念。


尽管方法各不相同,但这些研究有一个共同的目标:让主要被认为是人工智能学习“黑匣子”的东西变得透明。


Anthropic 在其研究论文中表示:“我们发现数百万个特征似乎与可解释的概念相对应,从人、国家和著名建筑等具体对象到情感、写作风格和推理步骤等抽象概念。”


研究人员使用扩散模型(生成式 AI 最流行的架构)进行了大量实验。在追踪这些模型如何学习操纵基本概念时,他们发现了一个一致的模式:能力在不同阶段出现,并在模型获得新能力时出现一个明显的转折点。


模型比标准测试能检测到的早 2,000 个训练步骤就掌握了概念。强概念在 6,000 步左右出现,而较弱概念在 20,000 步左右出现。


当研究人员调整“概念信号”时,训练数据中呈现的想法的清晰度有所提高。


他们发现,学习速度与这些能力有直接关系。替代提示方法可以可靠地提取隐藏的能力,而这些能力早在标准测试中出现之前就出现了。




这种“隐性涌现”现象对人工智能的安全性和评估具有重要意义。传统的基准测试可能大大低估了模型的实际能力,可能会同时遗漏有益和令人担忧的能力。


最有趣的或许是,该团队发现了多种方法来获取这些隐藏的能力。利用他们称之为“线性潜在干预”和“过度提示”的技术,研究人员可以在这些能力出现在标准测试中之前,从模型中可靠地提取复杂的行为。




在另一个案例中,研究人员发现,人工智能模型在能够通过标准提示可靠地展示这些能力之前,就学会了操纵性别表现和面部表情等复杂特征。


例如,模型在能够组合这些特征之前,可以准确地生成“微笑的女性”或“戴帽子的男性”——但详细分析表明,它们早就掌握了这些组合。它们只是无法通过常规提示来表达它。


本研究中观察到的能力的突然出现最初可能看起来类似于 grokking(模型在长时间训练后突然表现出完美的测试性能),但存在关键的区别。


虽然 grokking 发生在训练平台期之后,并涉及在同一数据分布上逐步细化表示,但这项研究表明,在主动学习过程中会出现能力,并涉及分布外的泛化。


作者发现该模型以新颖的方式操纵概念的能力发生了急剧转变,这表明存在离散的相位变化,而不是在 grokking 中所见的逐渐表征改进。




换句话说,人工智能模型似乎比我们想象的更早地内化概念,它们只是无法展示它们的技能——就像有些人可能理解外语电影,但仍然难以正确地说出来一样。


对于人工智能行业来说,这是一把双刃剑。隐藏能力的存在表明模型可能比之前想象的更强大。然而,这也证明了完全理解和控制它们能做什么是多么困难。


开发大型语言模型和图像生成器的公司可能需要修改其测试协议。


传统的基准测试虽然仍然有价值,但可能需要补充更复杂的评估方法来检测隐藏的功能。


编辑:Sebastian Sinclair