Kedalaman》Tujuh penelitian utama dan penerapan Agen AI

動區 BlockTempo · 2024-11-25T06:15:49.000Z

Dalam beberapa tahun terakhir, agen otonom berdasarkan model bahasa besar (LLM) terus berkembang dalam hal arsitektur, memori, persepsi, penalaran, dan tindakan, menunjukkan potensi untuk mendefinisikan ulang kemungkinan di berbagai bidang. Dan bagaimana hal ini akan diterapkan pada Agen AI yang menjadi fokus pasar? Artikel ini berasal dari artikel yang ditulis oleh Rituals, diselenggarakan dan disusun oleh Vernacular Blockchain. (Ringkasan sebelumnya: Apple dikabarkan akan merilis versi upgrade "LLM Siri" pada tahun 2025: asisten kehidupan AI yang lebih kuat daripada ChatGPT) (Suplemen latar belakang: Dialog dengan pendiri ai16z: Mengapa meme AI akan menjadi jalur besar?) Baru-baru ini tahun, agen (Konsep Agen menjadi semakin penting di banyak bidang seperti filsafat, permainan, dan kecerdasan buatan. Secara tradisional, agensi mengacu pada entitas yang mampu bertindak secara mandiri, membuat pilihan, dan memiliki intensionalitas, kualitas yang umumnya diasosiasikan dengan manusia. Di bidang kecerdasan buatan, konotasi keagenan menjadi lebih kompleks. Dengan munculnya agen otonom yang mampu mengamati, belajar, dan bertindak secara mandiri di lingkungannya, konsep abstrak keagenan di masa lalu telah diberikan bentuk konkrit berupa sistem komputasi. Agen-agen ini memerlukan sedikit intervensi manusia, menunjukkan kapasitas yang tidak disadari namun disengaja secara komputasi untuk membuat keputusan, belajar dari pengalaman, dan berinteraksi dengan agen lain atau manusia dengan cara yang semakin kompleks. Artikel ini akan mengeksplorasi bidang agen otonom yang sedang berkembang, khususnya agen berdasarkan model bahasa besar (LLM) dan dampaknya di berbagai bidang seperti game, tata kelola, sains, robotika, dan banyak lagi. Berdasarkan eksplorasi prinsip-prinsip dasar agensi, artikel ini akan menganalisis arsitektur dan penerapan agen kecerdasan buatan. Perspektif taksonomi ini memberikan wawasan tentang bagaimana agen melakukan tugas, memproses informasi, dan berkembang dalam kerangka operasional spesifik mereka. Tujuan artikel ini mencakup dua aspek berikut: Memberikan gambaran sistematis tentang agen kecerdasan buatan dan fondasi arsitekturnya, dengan fokus pada komponen seperti memori, persepsi, penalaran, dan perencanaan. Jelajahi tren terbaru dalam penelitian agen kecerdasan buatan, soroti contoh penggunaannya dalam mendefinisikan ulang apa yang mungkin dilakukan. Catatan: Karena panjangnya artikel, teks asli dalam penyusunan artikel ini telah dihapus. Tren Penelitian Agen Pengembangan agen berdasarkan model bahasa besar (LLM) menandai kemajuan besar dalam penelitian kecerdasan buatan, yang mencakup berbagai kemajuan dalam penalaran simbolik, sistem reaktif, pembelajaran penguatan, dan pembelajaran adaptif. Agen simbolik: mensimulasikan penalaran manusia melalui aturan dan pengetahuan terstruktur, cocok untuk masalah tertentu (seperti diagnosis medis), namun sulit untuk menghadapi lingkungan yang kompleks dan tidak pasti. Agen reaktif: Merespon lingkungan dengan cepat melalui putaran "persepsi-aksi", yang cocok untuk skenario interaksi cepat, tetapi tidak dapat menyelesaikan tugas yang kompleks. Agen pembelajaran penguatan: Mengoptimalkan perilaku melalui pembelajaran coba-coba dan banyak digunakan dalam permainan dan robot. Namun, waktu pelatihannya lama, efisiensi sampelnya rendah, dan stabilitasnya buruk. Agen berbasis LLM: Agen LLM menggabungkan penalaran simbolis, umpan balik, dan pembelajaran adaptif. Ia memiliki kemampuan pembelajaran beberapa langkah dan nol. Ini banyak digunakan dalam pengembangan perangkat lunak, penelitian ilmiah, dan bidang lainnya berkolaborasi dengan agen lain. Arsitektur Agensi Arsitektur agensi modern terdiri dari beberapa modul yang membentuk sistem yang komprehensif. 1. Modul profil Modul profil menentukan perilaku agen dan memastikan konsistensi dengan menetapkan peran atau kepribadian. Sangat cocok untuk skenario yang memerlukan kepribadian yang stabil. Profil agen LLM dibagi menjadi tiga kategori: persona demografis, persona virtual, dan persona yang dipersonalisasi. Dikutip dari makalah (From Roles to Personalization) Peran meningkatkan efektivitas Penetapan peran dapat secara signifikan meningkatkan kinerja dan kemampuan penalaran agen. Misalnya, LLM merespons lebih dalam dan kontekstual ketika bertindak sebagai ahli. Dalam sistem multi-agen, pencocokan peran mendorong kolaborasi dan meningkatkan tingkat penyelesaian tugas dan kualitas interaksi. Metode Pembuatan Profil Profil agen LLM dapat dibuat dengan cara berikut: Desain manual: mengatur karakteristik karakter secara manual. Pembuatan LLM: Secara otomatis memperluas pengaturan peran suite melalui LLM. Penyelarasan kumpulan data: dibangun berdasarkan kumpulan data nyata untuk meningkatkan keaslian interaksi. 2. Modul memori Memori adalah inti dari agen LLM, mendukung perencanaan adaptif dan pengambilan keputusan. Struktur memori mensimulasikan proses manusia dan terutama dibagi menjadi dua kategori: Memori terpadu: memori jangka pendek, memproses informasi terkini. Dioptimalkan melalui pengambilan teks, ringkasan memori, dan mekanisme perhatian yang dimodifikasi, tetapi dibatasi oleh jendela konteks. Memori hibrid: menggabungkan memori jangka pendek dan jangka panjang, dengan memori jangka panjang yang disimpan dalam database eksternal untuk pemanggilan kembali secara efisien. Format memori Format penyimpanan memori yang umum meliputi: Bahasa alami: fleksibel dan kaya secara semantik. Sematkan vektor: untuk pengambilan cepat. Basis Data: mendukung kueri melalui penyimpanan terstruktur. Daftar terstruktur: Disusun dalam bentuk daftar atau hierarki. Agen manipulasi memori berinteraksi dengan memori melalui operasi berikut: Pembacaan memori: Mengambil informasi yang relevan untuk mendukung pengambilan keputusan. Penulisan memori: Menyimpan informasi baru untuk menghindari duplikasi dan meluap. Refleksi memori: Meringkas pengalaman dan meningkatkan kemampuan penalaran abstrak. Signifikansi dan tantangan penelitian berdasarkan isi makalah (Agen Generatif). Meskipun sistem memori meningkatkan kemampuan agen cerdas, hal ini juga membawa tantangan penelitian: Skalabilitas dan efisiensi: Sistem memori perlu mendukung sejumlah besar informasi dan memastikan pengambilan cepat. Bagaimana mengoptimalkan memori jangka panjang Pengambilan masih menjadi fokus penelitian. Pemrosesan terbatas konteks: LLM saat ini dibatasi oleh jendela konteks, sehingga sulit untuk mengelola memori yang sangat besar. Penelitian mengeksplorasi mekanisme perhatian dinamis dan teknologi ringkasan untuk memperluas kemampuan pemrosesan memori suite. Bias dan penyimpangan dalam memori jangka panjang: Memori mungkin memiliki bias, yang mengarah pada penentuan prioritas informasi dan penyimpangan memori. Pembaruan dan penyimpangan secara berkala perlu diperbaiki untuk menjaga keseimbangan tubuh cerdas. Lupa yang sangat parah: Data baru menimpa data lama, mengakibatkan hilangnya informasi penting. Memori penting perlu diperkuat melalui pemutaran pengalaman dan teknologi konsolidasi memori. 3. Kemampuan Persepsi Agen cerdas LLM meningkatkan pemahaman mereka terhadap lingkungan dan kemampuan pengambilan keputusan dengan memproses beragam sumber data, mirip dengan bagaimana manusia mengandalkan masukan sensorik. Persepsi multimodal mengintegrasikan masukan seperti teks, penglihatan, dan pendengaran untuk meningkatkan kemampuan agen cerdas dalam melakukan tugas kompleks. Berikut ini adalah jenis input utama dan penerapannya: Input teks Teks adalah metode komunikasi utama agen LLM. Meskipun agen cerdas memiliki kemampuan bahasa tingkat tinggi, memahami makna tersirat di balik instruksi masih merupakan sebuah tantangan. Pemahaman implisit: Menyesuaikan preferensi melalui pembelajaran penguatan, menangani instruksi yang ambigu dan niat yang disimpulkan. Kemampuan tanpa sampel dan sedikit sampel: Dapat merespons tugas baru tanpa pelatihan tambahan dan cocok untuk beragam skenario interaktif. Masukan visual dan persepsi visual memungkinkan agen cerdas memahami hubungan antara objek dan ruang. Gambar-ke-teks: Menghasilkan deskripsi teks membantu memproses data visual, namun detailnya mungkin hilang. Pengkodean berbasis transformator: Vision Transformers mengubah gambar menjadi token yang kompatibel dengan teks. Alat penghubung: seperti BLIP-2 dan Flamingo menggunakan lapisan tengah untuk mengoptimalkan docking visual dan teks. Masukan pendengaran Persepsi pendengaran memungkinkan agen cerdas mengenali suara dan ucapan, yang khususnya penting dalam skenario interaktif dan berisiko tinggi. Pengenalan dan sintesis ucapan: seperti Whisper (ucapan ke teks) dan FastSpeech (teks ke ucapan). Pemrosesan spektogram: Memproses spektogram audio menjadi gambar untuk meningkatkan kemampuan analisis sinyal pendengaran. Tantangan penelitian dan pertimbangan untuk persepsi multi-modal: Penyelarasan dan integrasi data Data multi-modal perlu diselaraskan secara efisien untuk menghindari kesalahan persepsi dan respons. Penelitian berfokus pada optimalisasi lapisan Transformer multi-modal dan lintas perhatian. Skalabilitas dan efisiensi pemrosesan multi-modal sangat diminati, terutama ketika memproses gambar dan audio resolusi tinggi, dan mengembangkan konsumen dengan sumber daya rendah...

近年來，基於大型語言模型（LLM）的自主代理在架構、記憶、感知、推理與行動等方面不斷發展，在多個領域展現出重新定義可能性的潛力。而這將如何應用在市場關注的 AI Agent？本文源自 Rituals 所著文章，由 白話區塊鏈 整理、編譯。 （前情提要： 蘋果傳2025發表升級版「LLM Siri」：比ChatGPT更強大的AI生活助理） （背景補充： 對話 ai16z 創辦人：為什麼 AI meme 將成為一個巨大賽道？）     近年來，代理（Agent）的概念在哲學、遊戲和人工智慧等多個領域的重要性日益凸顯。從傳統意義上看，代理指的是一個實體能夠自主行動、做出選擇並具有意圖性，這些特質通常與人類聯絡在一起。 而在人工智慧領域，代理的內涵變得更加複雜。隨著自主代理的出現，這些代理能夠在環境中進行觀察、學習並獨立行動，使得過去抽象的代理概念被賦予了計算系統的具體形式。 這些代理幾乎無需人為干預，展現出一種雖非意識卻具備計算性意圖的能力，能夠做出決策、從經驗中學習，並以越來越複雜的方式與其他代理或人類互動。 本文將探討自主代理這一新興領域，特別是基於大型語言模型（LLM）的代理及其在遊戲、治理、科學、機器人等不同領域的影響。在探討代理基本原則的基礎上，本文將分析人工智慧代理的架構與應用。通過這種分類視角，我們能夠深入瞭解這些代理如何執行任務、處理資訊並在其特定的操作框架中不斷髮展。 本文的目標包括以下兩個方面： 提供對人工智慧代理及其架構基礎的系統性概述，重點分析記憶、感知、推理和規劃等組成部分。 探討人工智慧代理研究的最新趨勢，突出其在重新定義可能性方面的應用案例。 注：由於文章篇幅問題，本文編譯對原文有刪減。 代理研究趨勢 基於大型語言模型（LLM）的代理髮展標誌著人工智慧研究的重大進展，涵蓋了符號推理、反應式系統、強化學習到自適應學習的多重進步。 符號代理：通過規則和結構化知識模擬人類推理，適用於特定問題（如醫療診斷），但難以應對複雜、不確定環境。 反應式代理：通過 「感知 – 行動」 迴圈快速響應環境，適合快速互動場景，但無法完成複雜任務。 強化學習代理：通過試錯學習優化行為，廣泛應用於遊戲和機器人，但訓練時間長，樣本效率低，穩定性差。 基於 LLM 的代理：LLM 代理結合符號推理、回饋和自適應學習，具有少樣本和零樣本學習能力，廣泛應用於軟體開發、科學研究等領域，適合動態環境並能與其他代理協作。 代理架構 現代代理架構包括多個模組，形成綜合系統。 1. 檔案模組 檔案模組決定代理行為，通過分配角色或個性來確保一致性，適用於需要穩定個性的場景。LLM 代理的檔案分為三類：人口學角色、虛擬角色和個性化角色。 摘自《從角色到個性化》論文 角色對效能的提升角色設定可顯著提升代理的表現和推理能力。例如，LLM 作為專家時迴應更深入、符合語境。在多代理系統中，角色匹配促進協作，提升任務完成率和互動品質。 檔案建立方法 LLM 代理檔案可通過以下方式構建： 手動設計：人工設定角色特徵。 LLM 生成：通過 LLM 自動擴展套件角色設定。 資料集對齊：基於真實資料集構建，提升互動真實性。 2. 記憶模組 記憶是 LLM 代理的核心，支援適應性規劃與決策。記憶結構模擬人類過程，主要分為兩類： 統一記憶：短期記憶，處理最近的資訊。通過文字擷取、記憶總結和修改注意力機制優化，但受上下文視窗限制。 混合記憶：結合短期與長期記憶，長期記憶儲存在外部資料庫中，便於高效回憶。 記憶格式常見的記憶儲存格式包括： 自然語言：靈活且語義豐富。 嵌入向量：便於快速檢索。 資料庫：通過結構化儲存，支援查詢。 結構化列表：以列表或層級形式組織。 記憶操作代理通過以下操作與記憶互動： 記憶讀取：檢索相關資訊，支援明智決策。 記憶寫入：儲存新資訊，避免重複與溢位。 記憶反思：總結經驗，增強抽象推理能力。 基於《Generative Agents》論文的內容 研究意義與挑戰 儘管記憶系統提升了智慧體能力，但也帶來研究挑戰： 可擴展套件性與效率：記憶系統需支援大量資訊並確保快速檢索，如何優化長期記憶檢索仍是研究重點。 上下文限制的處理：當前 LLM 受限於上下文視窗，難以管理龐大記憶，研究探索動態注意力機制和摘要技術來擴展套件記憶處理能力。 長期記憶中的偏差與漂移：記憶可能存在偏差，導致資訊優先處理並產生記憶漂移，需定期更新並修正偏差以保持智慧體平衡。 災難性遺忘：新資料覆蓋舊資料，導致關鍵資訊丟失，需通過體驗回放和記憶鞏固技術強化關鍵記憶。 3. 感知能力 LLM 智慧體通過處理多樣化的資料來源提升對環境的理解與決策能力，類似於人類依賴感官輸入。多模態感知整合文字、視覺和聽覺等輸入，增強智慧體執行復雜任務的能力。以下是主要輸入型別及其應用： 文字輸入文字是 LLM 智慧體的主要溝通方式。儘管智慧體具備高階語言能力，理解指令背後的隱含意義仍是挑戰。 隱含理解：通過強化學習調整偏好，處理模糊指令和推測意圖。 零樣本與少樣本能力：無需額外訓練即可響應新任務，適用於多樣化互動場景。 視覺輸入視覺感知讓智慧體理解物體與空間關係。 影象轉文字：生成文字描述幫助處理視覺資料，但可能失去細節。 基於 Transformer 的編碼：如 Vision Transformers 將影象轉化為文字相容的代幣。 橋接工具：如 BLIP-2 和 Flamingo 利用中間層優化視覺與文字對接。 聽覺輸入聽覺感知讓智慧體識別聲音和語音，尤其在互動和高風險場景中重要。 語音識別與合成：如 Whisper（語音轉文字）和 FastSpeech（文字轉語音）。 頻譜圖處理：將音訊頻譜圖處理為影象，提升聽覺訊號解析能力。 多模態感知的研究挑戰與考量： 資料對齊與整合多模態資料需要高效對齊，以避免感知與響應錯誤，研究集中於優化多模態 Transformer 與交叉注意力層。 可擴展套件性與效率多模態處理需求大，尤其處理高解析度影象和音訊時，開發低資源消...

深度》AI Agent 的七大研究與應用

Jelajahi Konten Lainnya dari Kreator

Berita Terbaru