Trong những năm gần đây, các tác nhân tự chủ dựa trên mô hình ngôn ngữ lớn (LLM) đã phát triển không ngừng về cấu trúc, trí nhớ, cảm nhận, suy luận và hành động, thể hiện tiềm năng tái định nghĩa khả năng trong nhiều lĩnh vực. Vậy điều này sẽ được áp dụng như thế nào trong tác nhân AI mà thị trường đang quan tâm? Bài viết này được lấy từ bài viết của Rituals, do Bạch Hóa Chuỗi Khối biên soạn và dịch. (Tóm tắt: Apple dự kiến công bố phiên bản nâng cấp “LLM Siri” vào năm 2025: AI trợ lý cuộc sống mạnh mẽ hơn ChatGPT) (Thông tin nền: Người sáng lập ai16z về lý do tại sao meme AI sẽ trở thành một đường đua lớn?) Gần đây, khái niệm tác nhân (Agent) đã ngày càng trở nên quan trọng trong nhiều lĩnh vực như triết học, trò chơi và trí tuệ nhân tạo. Theo nghĩa truyền thống, tác nhân chỉ về một thực thể có khả năng tự hành động, đưa ra lựa chọn và có ý định, những đặc điểm này thường liên quan đến con người. Trong lĩnh vực trí tuệ nhân tạo, nội hàm của tác nhân trở nên phức tạp hơn. Với sự xuất hiện của tác nhân tự chủ, những tác nhân này có khả năng quan sát, học hỏi và hành động độc lập trong môi trường, khiến cho khái niệm tác nhân trừu tượng trong quá khứ được gán cho hình thức cụ thể của hệ thống tính toán. Những tác nhân này hầu như không cần sự can thiệp của con người, thể hiện khả năng có ý định tính toán mặc dù không có ý thức, có khả năng đưa ra quyết định, học hỏi từ kinh nghiệm và tương tác với các tác nhân khác hoặc con người theo cách ngày càng phức tạp. Bài viết này sẽ khám phá lĩnh vực mới nổi về tác nhân tự chủ, đặc biệt là tác nhân dựa trên mô hình ngôn ngữ lớn (LLM) và ảnh hưởng của chúng trong các lĩnh vực như trò chơi, quản trị, khoa học, robot, v.v. Dựa trên các nguyên tắc cơ bản của tác nhân, bài viết sẽ phân tích cấu trúc và ứng dụng của tác nhân trí tuệ nhân tạo. Thông qua quan điểm phân loại này, chúng ta có thể hiểu sâu sắc cách mà những tác nhân này thực hiện nhiệm vụ, xử lý thông tin và phát triển trong khung hoạt động cụ thể của chúng. Mục tiêu của bài viết này bao gồm hai khía cạnh sau: Cung cấp cái nhìn tổng quan hệ thống về tác nhân trí tuệ nhân tạo và cấu trúc cơ bản của chúng, tập trung phân tích các thành phần như trí nhớ, cảm nhận, suy luận và lập kế hoạch. Khám phá các xu hướng nghiên cứu mới nhất về tác nhân trí tuệ nhân tạo, làm nổi bật các trường hợp ứng dụng của chúng trong việc tái định nghĩa khả năng. Lưu ý: Do vấn đề về độ dài bài viết, bản dịch này có sự cắt bớt so với nguyên văn. Xu hướng nghiên cứu tác nhân Sự phát triển của tác nhân dựa trên mô hình ngôn ngữ lớn (LLM) đánh dấu một bước tiến quan trọng trong nghiên cứu trí tuệ nhân tạo, bao gồm nhiều tiến bộ từ suy luận ký hiệu, hệ thống phản ứng, học tăng cường đến học thích ứng. Tác nhân ký hiệu: Mô phỏng suy luận của con người thông qua các quy tắc và kiến thức có cấu trúc, thích hợp cho các vấn đề cụ thể (như chẩn đoán y tế), nhưng khó ứng phó với môi trường phức tạp và không chắc chắn. Tác nhân phản ứng: Phản hồi nhanh chóng với môi trường thông qua vòng lặp “cảm nhận - hành động”, thích hợp cho các tình huống tương tác nhanh, nhưng không thể hoàn thành nhiệm vụ phức tạp. Tác nhân học tăng cường: Tối ưu hóa hành vi thông qua học hỏi từ thử và sai, được ứng dụng rộng rãi trong trò chơi và robot, nhưng thời gian huấn luyện lâu, hiệu suất mẫu thấp và độ ổn định kém. Tác nhân dựa trên LLM: Tác nhân LLM kết hợp suy luận ký hiệu, phản hồi và học tập thích ứng, có khả năng học với ít mẫu và không mẫu, được ứng dụng rộng rãi trong phát triển phần mềm, nghiên cứu khoa học, v.v., thích hợp với môi trường động và có thể hợp tác với các tác nhân khác. Cấu trúc tác nhân Cấu trúc tác nhân hiện đại bao gồm nhiều mô-đun, tạo thành một hệ thống tổng hợp. 1. Mô-đun hồ sơ Mô-đun hồ sơ xác định hành vi của tác nhân, đảm bảo tính nhất quán bằng cách phân bổ vai trò hoặc tính cách, thích hợp cho các tình huống cần tính cách ổn định. Hồ sơ của tác nhân LLM được chia thành ba loại: vai trò nhân khẩu học, vai trò ảo và vai trò cá nhân hóa. Trích dẫn từ bài viết (Từ vai trò đến cá nhân hóa) Vai trò nâng cao hiệu suất việc thiết lập vai trò có thể nâng cao đáng kể hiệu suất và khả năng suy luận của tác nhân. Ví dụ, khi LLM đóng vai trò là chuyên gia, phản hồi sâu sắc hơn và phù hợp với ngữ cảnh. Trong hệ thống đa tác nhân, việc ghép vai trò thúc đẩy hợp tác, nâng cao tỷ lệ hoàn thành nhiệm vụ và chất lượng tương tác. Phương pháp xây dựng hồ sơ Hồ sơ tác nhân LLM có thể được xây dựng thông qua các cách sau: Thiết kế thủ công: Cài đặt đặc điểm vai trò bằng tay. Tạo ra từ LLM: Mở rộng cài đặt vai trò tự động thông qua LLM. Căn chỉnh tập dữ liệu: Xây dựng dựa trên tập dữ liệu thực, nâng cao tính thực tế của tương tác. 2. Mô-đun trí nhớ Trí nhớ là cốt lõi của tác nhân LLM, hỗ trợ lập kế hoạch và quyết định thích ứng. Cấu trúc trí nhớ mô phỏng quá trình của con người, chủ yếu chia thành hai loại: Trí nhớ thống nhất: Trí nhớ ngắn hạn, xử lý thông tin gần đây. Tối ưu hóa thông qua trích xuất văn bản, tóm tắt trí nhớ và điều chỉnh cơ chế chú ý, nhưng bị giới hạn bởi cửa sổ ngữ cảnh. Trí nhớ hỗn hợp: Kết hợp trí nhớ ngắn hạn và dài hạn, trí nhớ dài hạn được lưu trữ trong cơ sở dữ liệu bên ngoài, thuận tiện cho việc hồi tưởng hiệu quả. Các định dạng trí nhớ Các định dạng lưu trữ trí nhớ phổ biến bao gồm: Ngôn ngữ tự nhiên: Linh hoạt và phong phú về nghĩa. Vector nhúng: Thuận tiện cho việc truy xuất nhanh. Cơ sở dữ liệu: Lưu trữ có cấu trúc, hỗ trợ truy vấn. Danh sách có cấu trúc: Tổ chức theo dạng danh sách hoặc phân cấp. Các thao tác trí nhớ Tác nhân tương tác với trí nhớ thông qua các thao tác sau: Đọc trí nhớ: Truy xuất thông tin liên quan, hỗ trợ quyết định thông minh. Ghi nhớ: Lưu trữ thông tin mới, tránh trùng lặp và tràn. Phản ánh trí nhớ: Tóm tắt kinh nghiệm, tăng cường khả năng suy luận trừu tượng. Dựa trên nội dung của bài viết (Các tác nhân sinh ra) Ý nghĩa nghiên cứu và thách thức Mặc dù hệ thống trí nhớ nâng cao khả năng của trí tuệ thể, nhưng cũng mang đến thách thức nghiên cứu: Khả năng mở rộng và hiệu quả: Hệ thống trí nhớ cần hỗ trợ một lượng lớn thông tin và đảm bảo truy xuất nhanh chóng, cách tối ưu hóa truy xuất trí nhớ dài hạn vẫn là trọng tâm nghiên cứu. Xử lý giới hạn ngữ cảnh: Hiện tại LLM bị giới hạn bởi cửa sổ ngữ cảnh, khó quản lý trí nhớ lớn, nghiên cứu khám phá cơ chế chú ý động và kỹ thuật tóm tắt để mở rộng khả năng xử lý trí nhớ. Đ偏倚 và trôi dạt trong trí nhớ dài hạn: Trí nhớ có thể tồn tại偏倚, dẫn đến việc ưu tiên xử lý thông tin và gây ra trôi dạt trí nhớ, cần cập nhật định kỳ và sửa chữa偏倚 để duy trì sự cân bằng của trí tuệ thể. Quên thảm khốc: Dữ liệu mới che lấp dữ liệu cũ, dẫn đến mất thông tin quan trọng, cần tăng cường trí nhớ quan trọng thông qua kỹ thuật phát lại trải nghiệm và củng cố trí nhớ. 3. Khả năng cảm nhận Tác nhân trí tuệ LLM nâng cao khả năng hiểu biết và quyết định với môi trường thông qua việc xử lý nhiều nguồn dữ liệu, tương tự như con người dựa vào đầu vào cảm giác. Cảm nhận đa mô hình tích hợp văn bản, hình ảnh và âm thanh, tăng cường khả năng của trí tuệ thể thực hiện các nhiệm vụ phức tạp. Dưới đây là các loại đầu vào chính và ứng dụng của chúng: Đầu vào văn bản Văn bản là cách giao tiếp chính của tác nhân trí tuệ LLM. Mặc dù trí tuệ thể có khả năng ngôn ngữ cao cấp, việc hiểu ý nghĩa tiềm ẩn sau chỉ dẫn vẫn là thách thức. Hiểu ngụ ý: Điều chỉnh sở thích thông qua học tăng cường, xử lý chỉ dẫn mơ hồ và suy đoán ý định. Khả năng không mẫu và ít mẫu: Phản hồi cho nhiệm vụ mới mà không cần huấn luyện bổ sung, phù hợp với các tình huống tương tác đa dạng. Đầu vào hình ảnh Cảm nhận hình ảnh giúp trí tuệ thể hiểu mối quan hệ giữa các đối tượng và không gian. Chuyển đổi hình ảnh thành văn bản: Tạo ra mô tả văn bản giúp xử lý dữ liệu hình ảnh, nhưng có thể mất đi chi tiết. Mã hóa dựa trên Transformer: Như Vision Transformers chuyển đổi hình ảnh thành các token tương thích với văn bản. Công cụ cầu nối: Như BLIP-2 và Flamingo sử dụng lớp trung gian tối ưu hóa sự kết nối giữa hình ảnh và văn bản. Đầu vào âm thanh Cảm nhận âm thanh giúp trí tuệ thể nhận diện âm thanh và giọng nói, đặc biệt quan trọng trong các tình huống tương tác và rủi ro cao. Nhận diện và tổng hợp giọng nói: Như Whisper (chuyển giọng nói thành văn bản) và FastSpeech (chuyển văn bản thành giọng nói). Xử lý phổ âm: Chuyển đổi phổ âm thanh thành hình ảnh, nâng cao khả năng phân tích tín hiệu âm thanh. Thách thức và cân nhắc trong nghiên cứu cảm nhận đa mô hình: Căn chỉnh và tích hợp dữ liệu Cần căn chỉnh hiệu quả dữ liệu đa mô hình để tránh sai sót trong cảm nhận và phản hồi, nghiên cứu tập trung vào tối ưu hóa Transformer đa mô hình và lớp chú ý chéo. Khả năng mở rộng và hiệu quả: Xử lý đa mô hình đòi hỏi lớn, đặc biệt khi xử lý hình ảnh và âm thanh độ phân giải cao, phát triển các kỹ thuật tối ưu hóa tài nguyên thấp.