近年來,基於大型語言模型(LLM)的自主代理在架構、記憶、感知、推理與行動等方面不斷發展,在多個領域展現出重新定義可能性的潛力。而這將如何應用在市場關注的 AI Agent?本文源自 Rituals 所著文章,由 白話區塊鏈 整理、編譯。 (前情提要: 蘋果傳2025發表升級版「LLM Siri」:比ChatGPT更強大的AI生活助理) (背景補充: 對話 ai16z 創辦人:為什麼 AI meme 將成為一個巨大賽道?)     近年來,代理(Agent)的概念在哲學、遊戲和人工智慧等多個領域的重要性日益凸顯。從傳統意義上看,代理指的是一個實體能夠自主行動、做出選擇並具有意圖性,這些特質通常與人類聯絡在一起。 而在人工智慧領域,代理的內涵變得更加複雜。隨著自主代理的出現,這些代理能夠在環境中進行觀察、學習並獨立行動,使得過去抽象的代理概念被賦予了計算系統的具體形式。 這些代理幾乎無需人為干預,展現出一種雖非意識卻具備計算性意圖的能力,能夠做出決策、從經驗中學習,並以越來越複雜的方式與其他代理或人類互動。 本文將探討自主代理這一新興領域,特別是基於大型語言模型(LLM)的代理及其在遊戲、治理、科學、機器人等不同領域的影響。在探討代理基本原則的基礎上,本文將分析人工智慧代理的架構與應用。通過這種分類視角,我們能夠深入瞭解這些代理如何執行任務、處理資訊並在其特定的操作框架中不斷髮展。 本文的目標包括以下兩個方面: 提供對人工智慧代理及其架構基礎的系統性概述,重點分析記憶、感知、推理和規劃等組成部分。 探討人工智慧代理研究的最新趨勢,突出其在重新定義可能性方面的應用案例。 注:由於文章篇幅問題,本文編譯對原文有刪減。 代理研究趨勢 基於大型語言模型(LLM)的代理髮展標誌著人工智慧研究的重大進展,涵蓋了符號推理、反應式系統、強化學習到自適應學習的多重進步。 符號代理:通過規則和結構化知識模擬人類推理,適用於特定問題(如醫療診斷),但難以應對複雜、不確定環境。 反應式代理:通過 「感知 – 行動」 迴圈快速響應環境,適合快速互動場景,但無法完成複雜任務。 強化學習代理:通過試錯學習優化行為,廣泛應用於遊戲和機器人,但訓練時間長,樣本效率低,穩定性差。 基於 LLM 的代理:LLM 代理結合符號推理、回饋和自適應學習,具有少樣本和零樣本學習能力,廣泛應用於軟體開發、科學研究等領域,適合動態環境並能與其他代理協作。 代理架構 現代代理架構包括多個模組,形成綜合系統。 1. 檔案模組 檔案模組決定代理行為,通過分配角色或個性來確保一致性,適用於需要穩定個性的場景。LLM 代理的檔案分為三類:人口學角色、虛擬角色和個性化角色。 摘自《從角色到個性化》論文 角色對效能的提升角色設定可顯著提升代理的表現和推理能力。例如,LLM 作為專家時迴應更深入、符合語境。在多代理系統中,角色匹配促進協作,提升任務完成率和互動品質。 檔案建立方法 LLM 代理檔案可通過以下方式構建: 手動設計:人工設定角色特徵。 LLM 生成:通過 LLM 自動擴展套件角色設定。 資料集對齊:基於真實資料集構建,提升互動真實性。 2. 記憶模組 記憶是 LLM 代理的核心,支援適應性規劃與決策。記憶結構模擬人類過程,主要分為兩類: 統一記憶:短期記憶,處理最近的資訊。通過文字擷取、記憶總結和修改注意力機制優化,但受上下文視窗限制。 混合記憶:結合短期與長期記憶,長期記憶儲存在外部資料庫中,便於高效回憶。 記憶格式常見的記憶儲存格式包括: 自然語言:靈活且語義豐富。 嵌入向量:便於快速檢索。 資料庫:通過結構化儲存,支援查詢。 結構化列表:以列表或層級形式組織。 記憶操作代理通過以下操作與記憶互動: 記憶讀取:檢索相關資訊,支援明智決策。 記憶寫入:儲存新資訊,避免重複與溢位。 記憶反思:總結經驗,增強抽象推理能力。 基於《Generative Agents》論文的內容 研究意義與挑戰 儘管記憶系統提升了智慧體能力,但也帶來研究挑戰: 可擴展套件性與效率:記憶系統需支援大量資訊並確保快速檢索,如何優化長期記憶檢索仍是研究重點。 上下文限制的處理:當前 LLM 受限於上下文視窗,難以管理龐大記憶,研究探索動態注意力機制和摘要技術來擴展套件記憶處理能力。 長期記憶中的偏差與漂移:記憶可能存在偏差,導致資訊優先處理並產生記憶漂移,需定期更新並修正偏差以保持智慧體平衡。 災難性遺忘:新資料覆蓋舊資料,導致關鍵資訊丟失,需通過體驗回放和記憶鞏固技術強化關鍵記憶。 3. 感知能力 LLM 智慧體通過處理多樣化的資料來源提升對環境的理解與決策能力,類似於人類依賴感官輸入。多模態感知整合文字、視覺和聽覺等輸入,增強智慧體執行復雜任務的能力。以下是主要輸入型別及其應用: 文字輸入文字是 LLM 智慧體的主要溝通方式。儘管智慧體具備高階語言能力,理解指令背後的隱含意義仍是挑戰。 隱含理解:通過強化學習調整偏好,處理模糊指令和推測意圖。 零樣本與少樣本能力:無需額外訓練即可響應新任務,適用於多樣化互動場景。 視覺輸入視覺感知讓智慧體理解物體與空間關係。 影象轉文字:生成文字描述幫助處理視覺資料,但可能失去細節。 基於 Transformer 的編碼:如 Vision Transformers 將影象轉化為文字相容的代幣。 橋接工具:如 BLIP-2 和 Flamingo 利用中間層優化視覺與文字對接。 聽覺輸入聽覺感知讓智慧體識別聲音和語音,尤其在互動和高風險場景中重要。 語音識別與合成:如 Whisper(語音轉文字)和 FastSpeech(文字轉語音)。 頻譜圖處理:將音訊頻譜圖處理為影象,提升聽覺訊號解析能力。 多模態感知的研究挑戰與考量: 資料對齊與整合多模態資料需要高效對齊,以避免感知與響應錯誤,研究集中於優化多模態 Transformer 與交叉注意力層。 可擴展套件性與效率多模態處理需求大,尤其處理高解析度影象和音訊時,開發低資源消...