根據哈佛大學和密歇根大學的最新研究,現代人工智能模型具有在訓練過程中突然且持續出現的隱藏能力,但這些能力保持隱藏狀態,直到以特定方式提示。


該研究分析了人工智能系統如何學習顏色和大小等概念,結果表明,模型掌握這些技能的時間往往比標準測試所顯示的要早得多——這一發現對人工智能的安全和發展具有重要意義。


研究報告指出:“我們的結果表明,衡量人工智能系統的能力比以前想象的要複雜得多。一個模型在得到標準提示時可能顯得無能,但實際上卻擁有隻有在特定條件下才會出現的複雜能力。”


這一進步與日益增多的研究成果相結合,旨在揭開人工智能模型如何發展能力的神祕面紗。


據 Decrypt 今年早些時候報道,人類學研究人員公佈了“詞典學習”技術,該技術將克勞德語言模型中的數百萬個神經連接映射到人工智能理解的特定概念。


儘管方法各不相同,但這些研究有一個共同的目標:讓主要被認爲是人工智能學習“黑匣子”的東西變得透明。


Anthropic 在其研究論文中表示:“我們發現數百萬個特徵似乎與可解釋的概念相對應,從人、國家和著名建築等具體對象到情感、寫作風格和推理步驟等抽象概念。”


研究人員使用擴散模型(生成式 AI 最流行的架構)進行了大量實驗。在追蹤這些模型如何學習操縱基本概念時,他們發現了一個一致的模式:能力在不同階段出現,並在模型獲得新能力時出現一個明顯的轉折點。


模型比標準測試能檢測到的早 2,000 個訓練步驟就掌握了概念。強概念在 6,000 步左右出現,而較弱概念在 20,000 步左右出現。


當研究人員調整“概念信號”時,訓練數據中呈現的想法的清晰度有所提高。


他們發現,學習速度與這些能力有直接關係。替代提示方法可以可靠地提取隱藏的能力,而這些能力早在標準測試中出現之前就出現了。




這種“隱性涌現”現象對人工智能的安全性和評估具有重要意義。傳統的基準測試可能大大低估了模型的實際能力,可能會同時遺漏有益和令人擔憂的能力。


最有趣的或許是,該團隊發現了多種方法來獲取這些隱藏的能力。利用他們稱之爲“線性潛在干預”和“過度提示”的技術,研究人員可以在這些能力出現在標準測試中之前,從模型中可靠地提取複雜的行爲。




在另一個案例中,研究人員發現,人工智能模型在能夠通過標準提示可靠地展示這些能力之前,就學會了操縱性別表現和麪部表情等複雜特徵。


例如,模型在能夠組合這些特徵之前,可以準確地生成“微笑的女性”或“戴帽子的男性”——但詳細分析表明,它們早就掌握了這些組合。它們只是無法通過常規提示來表達它。


本研究中觀察到的能力的突然出現最初可能看起來類似於 grokking(模型在長時間訓練後突然表現出完美的測試性能),但存在關鍵的區別。


雖然 grokking 發生在訓練平臺期之後,並涉及在同一數據分佈上逐步細化表示,但這項研究表明,在主動學習過程中會出現能力,並涉及分佈外的泛化。


作者發現該模型以新穎的方式操縱概念的能力發生了急劇轉變,這表明存在離散的相位變化,而不是在 grokking 中所見的逐漸表徵改進。




換句話說,人工智能模型似乎比我們想象的更早地內化概念,它們只是無法展示它們的技能——就像有些人可能理解外語電影,但仍然難以正確地說出來一樣。


對於人工智能行業來說,這是一把雙刃劍。隱藏能力的存在表明模型可能比之前想象的更強大。然而,這也證明了完全理解和控制它們能做什麼是多麼困難。


開發大型語言模型和圖像生成器的公司可能需要修改其測試協議。


傳統的基準測試雖然仍然有價值,但可能需要補充更復雜的評估方法來檢測隱藏的功能。


編輯:Sebastian Sinclair