Meta 的研究人員表示,訓練語言模型同時預測多個標記可以提高樣本效率。

大型語言模型(例如 Llama 和 ChatGPT)通常針對下一個標記預測進行訓練,但採用這種新方法可以獲得更好的性能。

什麼是單個標記預測技術?

多標記預測技術在某些情況下具有顯著優勢,速度是生成任務的三倍,但它仍然不是適用於所有類型模型的萬能解決方案。該技術還有很大的改進空間,對於某些 LLM 應用程序來說,它可以成爲一種強大的工具。

爲了更清楚地理解,可以說 LLM 訓練的傳統過程使用一種稱爲“下一個標記預測”的方法,通過這種方式,模型僅預測給定序列中的下一個未來標記。

在自動化過程中,它預測的標記被添加到輸入中,並在提供的整個文本輸入上一遍又一遍地重複該過程,以便模型學習常見的模式並開發出產生由邏輯和一致的文本組成的輸出的能力。

這種技術存在一些缺點,因爲通過僅處理下一個標記,模型過於關注文本中的局部模式而忽略了只能通過推理做出的預測。

該技術的另一個問題是,它需要將大量數據集輸入模型才能達到人類用很少的文本就能完成的正常語言輸出流程。

多令牌預測可實現 3 倍速度

來源:Meta。

在 Meta 提出的新多標記方法中,LLM 被指示在訓練過程中同時從不同位置預測多個標記。研究人員使用了一種簡單的預測架構進行多標記預測,不需要時間和內存處理等額外資源。

研究人員使用了大多數 LLM 已經在使用的相同的 Transformer 架構,但他們確實做了一些改變以適應多個 token 預測,通過將其輸出頭從單個增加到多個併爲每個 token 分配一個。

這樣,在得出結論和做出預測時,該模型使用相同的基本下一步預測策略,但通過使用多個頭,它可以加快這一過程。研究表明,

“雖然免費且簡單,但多標記預測是一種有效的修改,可以訓練更強大、更快的變壓器模型。”

來源:Meta。

研究人員在研究過程中發現,當將該技術應用於較小的模型時,其結果不太理想,但當將同樣的過程應用於較大的模型時,結果變得比平均水平更好,並且結果會隨着模型尺寸的增大而不斷改善。正如研究中所寫,

“該方法對較大的模型越來越有用,並且在進行多個時期的訓練時仍然具有吸引力。在編碼等生成基準測試中,收益尤其明顯,我們的模型始終比強大的基線高出幾個百分點。”

來源:Meta。

研究人員還表示,多標記預測技術還能使模型產生邏輯結果的速度提高三倍,而且幾乎沒有額外成本,非常有用。