新研究表明,人工智能(AI)模型在訓練過程中展現這些能力之前,早已具備一些能力。根據哈佛大學和密歇根大學的研究,這些模型直到某種方式需要這些能力時纔會展示出來。

這項研究是衆多旨在理解人工智能模型如何建立能力的研究之一,在展示這些能力之前。

研究分析了人工智能模型如何學習基本概念,如大小和顏色,揭示它們比大多數測試建議的更早掌握這些技能。該研究還提供了關於測量人工智能能力複雜性的見解。“當給定標準提示時,一個模型可能看起來無能,但實際上卻擁有隻有在特定條件下才會顯現的複雜能力,”論文中寫道。

研究表明,人工智能模型內化概念

哈佛大學和密歇根大學並不是第一個嘗試理解人工智能模型能力的機構,Anthropic的研究人員發佈了一篇名爲‘字典學習’的論文。該論文討論了在其Claude語言中將特定概念與其理解的內容之間的聯繫。儘管大多數這些研究採取了不同的角度,但其主要目的是理解人工智能模型。

Anthropic透露他們發現了可以與不同可解釋概念相關聯的特徵。“我們發現了數百萬個特徵,這些特徵似乎對應於可解釋概念,從具體對象如人、國家和著名建築到情感、寫作風格和推理步驟等抽象思想,”研究揭示。

在研究過程中,研究人員進行了幾項實驗,使用擴散模型,這是人工智能最流行的架構之一。在實驗中,他們意識到模型有獨特的方式來操控基本概念。隨着人工智能模型在不同階段展示新能力,模式是一致的,並且有一個明顯的轉折點信號,表明何時獲得新能力。

在訓練過程中,模型顯示它們在標準測試檢測之前早約2000步掌握了概念。強概念出現在約6000步,而弱概念在約20000步時可見。在調整概念信號後,他們發現與學習速度之間存在直接相關性。

研究人員揭示了訪問隱藏能力的方法

研究人員使用替代提示方法來揭示隱藏的能力,這些能力在標準測試中未被展現。隱藏出現的迅猛性質對人工智能評估和安全性產生影響。例如,傳統基準可能會遺漏人工智能模型的某些能力,從而錯過有益和令人擔憂的能力。

在研究過程中,團隊找到了某些方法,以訪問人工智能模型的隱藏能力。研究將這些方法稱爲線性潛在干預和過度提示,因爲研究人員使模型在標準測試之前展示覆雜行爲。研究人員還發現,人工智能模型在能夠通過標準提示展示之前,操控了某些複雜特徵。

例如,模型可以在被要求將“微笑的女性”或“戴帽子的男性”組合在一起之前成功生成這些圖像。然而,研究表明它們早已學會了進行組合,但無法通過傳統提示展示這一點。展示能力的模型可以被稱爲grokking,這是一種情況,在這種情況下,模型在經過延長訓練後表現出完美的測試性能。然而,研究人員表示,兩者之間存在關鍵差異。

儘管grokking發生在幾次訓練會話之後,並涉及對同一數據集的多個分佈進行精煉,研究表明這些能力在主動學習過程中出現。研究人員指出,模型通過階段變化而不是逐漸的表示改進,找到了操控概念的新方法。

根據研究,人工智能模型知道這些概念,只是無法展示它們。這類似於人們觀看並理解一部外國電影但無法說出該語言。這表明大多數模型的能力超過它們所展示的,同時也顯示出理解和控制這些能力的困難。

從零到Web3專業人士:你的90天職業啓動計劃