Tiêu đề gốc: (Thời đại tác nhân: Cuộc chiến và sự đồng sinh giữa AI và Crypto)
Tác giả gốc: YBB Capital Research
Một, Bắt đầu từ sự chú ý đến sự chán chường
Trong năm qua, do sự gián đoạn trong việc kể chuyện ở lớp ứng dụng, không thể theo kịp tốc độ bùng nổ của cơ sở hạ tầng, lĩnh vực mã hóa dần trở thành một trò chơi tranh giành nguồn lực chú ý. Từ Silly Dragon đến Goat, từ Pump.fun đến Clanker, sự chán chường của sự chú ý đã khiến cuộc chiến tranh giành này trở nên ngày càng khốc liệt. Bắt đầu bằng cách thu hút sự chú ý theo cách thông thường, nhanh chóng chuyển sang mô hình nền tảng mà người cầu và người cung chú ý thống nhất, cho đến khi sinh vật silicon trở thành những nhà cung cấp nội dung mới. Trong hàng triệu hình thức khác nhau của Meme Coin, cuối cùng đã xuất hiện một thứ có thể đạt được sự đồng thuận giữa nhà đầu tư nhỏ lẻ và VC: AI Agent.
Sự chú ý cuối cùng là một trò chơi tổng bằng không, nhưng đầu cơ thực sự có thể thúc đẩy sự tăng trưởng hoang dã. Chúng ta đã từng xem xét về sự khởi đầu của thời kỳ vàng trên blockchain trong bài viết của mình về UNI, sự phát triển nhanh chóng của DeFi bắt nguồn từ thời kỳ khai thác LP mà Compound Finance khởi xướng, việc vào ra giữa hàng nghìn, thậm chí hàng vạn bể khai thác trên Apy là cách chơi nguyên thủy nhất trên chuỗi trong thời kỳ đó, mặc dù cuối cùng tình hình là các bể khai thác sụp đổ, để lại một mớ hỗn độn. Nhưng sự bùng nổ điên cuồng của những thợ mỏ vàng thực sự đã để lại cho blockchain một tính thanh khoản chưa từng có, DeFi cuối cùng cũng đã thoát khỏi việc chỉ đơn thuần là đầu cơ để hình thành một lĩnh vực trưởng thành, thỏa mãn nhu cầu tài chính của người dùng trong nhiều khía cạnh như thanh toán, giao dịch, chênh lệch giá, và đặt cọc. Và AI Agent cũng đang trải qua giai đoạn hoang dã này, chúng ta đang khám phá cách Crypto có thể tốt hơn để kết hợp với AI và cuối cùng thúc đẩy lớp ứng dụng lên một tầm cao mới.
Hai, Tác nhân làm thế nào để tự chủ
Chúng ta đã có một cái nhìn tổng quan về nguồn gốc của AI Meme: Truth Terminal và triển vọng tương lai của AI Agent trong bài viết trước, bài viết này sẽ tập trung vào chính AI Agent.
Chúng ta sẽ bắt đầu từ định nghĩa của AI Agent, Agent trong lĩnh vực AI là một thuật ngữ khá cổ điển nhưng không rõ ràng, chủ yếu nhấn mạnh vào tính tự trị (Autonomous), tức là bất kỳ AI nào có khả năng nhận thức môi trường và phản ứng đều có thể được gọi là Agent. Trong định nghĩa hiện nay, AI Agent gần giống như tác nhân thông minh, tức là thiết lập cho mô hình lớn một hệ thống mô phỏng quyết định của con người, trong giới học thuật, hệ thống này được coi là cách có triển vọng nhất để đạt được AGI (Trí tuệ nhân tạo tổng quát).
Trong các phiên bản GPT sớm, chúng ta có thể nhận thấy rõ rằng mô hình lớn rất giống con người, nhưng khi trả lời nhiều câu hỏi phức tạp, mô hình lớn lại chỉ có thể đưa ra một số câu trả lời mơ hồ. Nguyên nhân chính là do mô hình lớn lúc đó dựa trên xác suất thay vì nguyên nhân, và thứ hai là nó thiếu khả năng mà con người có được như sử dụng công cụ, ghi nhớ, lập kế hoạch, v.v. trong khi AI Agent có thể lấp đầy những thiếu sót này. Vì vậy, dùng một công thức để tóm tắt, AI Agent (tác nhân) = LLM (mô hình lớn) + Planning (lập kế hoạch) + Memory (ghi nhớ) + Tools (công cụ).
Mô hình lớn dựa trên từ khóa (Prompt) giống như một con người tĩnh, nó chỉ có sự sống khi chúng ta nhập vào, mục tiêu của tác nhân lại là một con người thật hơn. Hiện tại, tác nhân trong ngành chủ yếu là mô hình tinh chỉnh từ phiên bản Llama 70b hoặc 405b mã nguồn mở của Meta (hai tham số khác nhau), có khả năng ghi nhớ và sử dụng công cụ truy cập API, trong các khía cạnh khác có thể cần sự giúp đỡ hoặc nhập liệu từ con người (bao gồm cả tương tác hợp tác với các tác nhân khác), vì vậy chúng ta có thể thấy các tác nhân chính trong ngành hiện nay vẫn tồn tại dưới hình thức KOL trên mạng xã hội. Để làm cho tác nhân giống như con người hơn, cần phải có khả năng lập kế hoạch và hành động, trong đó chuỗi tư duy là yếu tố rất quan trọng.
Ba, Chuỗi tư duy (Chain of Thought, CoT)
Khái niệm chuỗi tư duy (Chain of Thought, CoT) lần đầu tiên xuất hiện trong bài báo mà Google phát hành vào năm 2022 (Chain-of-Thought Prompting Elicits Reasoning in Large Language Models), bài báo chỉ ra rằng có thể nâng cao khả năng suy luận của mô hình bằng cách tạo ra một loạt các bước suy luận trung gian, giúp mô hình hiểu và giải quyết các vấn đề phức tạp tốt hơn.
Một CoT Prompt điển hình bao gồm ba phần: mô tả nhiệm vụ rõ ràng, lý do hỗ trợ nhiệm vụ và lý thuyết hoặc nguyên lý, ví dụ về giải pháp cụ thể. Cấu trúc có tổ chức như vậy giúp mô hình hiểu yêu cầu nhiệm vụ, thông qua suy luận logic tiến dần đến câu trả lời, từ đó nâng cao hiệu quả và độ chính xác trong việc giải quyết vấn đề. CoT đặc biệt phù hợp với các nhiệm vụ cần phân tích sâu và suy luận nhiều bước, như giải bài toán toán học, viết báo cáo dự án, v.v. Trong các nhiệm vụ đơn giản, CoT có thể không mang lại lợi thế rõ ràng, nhưng đối với các nhiệm vụ phức tạp, nó có thể tăng cường đáng kể hiệu suất của mô hình, giảm tỷ lệ lỗi thông qua chiến lược giải quyết từng bước, nâng cao chất lượng hoàn thành nhiệm vụ.
Khi xây dựng AI Agent, CoT đóng vai trò then chốt, AI Agent cần hiểu thông tin nhận được và đưa ra quyết định hợp lý dựa trên đó, CoT bằng cách cung cấp cách suy nghĩ có trật tự, giúp Agent xử lý và phân tích thông tin đầu vào một cách hiệu quả, chuyển kết quả phân tích thành hướng dẫn hành động cụ thể. Phương pháp này không chỉ tăng cường độ tin cậy và hiệu quả của quyết định của Agent, mà còn nâng cao tính minh bạch trong quá trình ra quyết định, làm cho hành vi của Agent trở nên dễ dự đoán và theo dõi hơn. CoT thông qua việc phân chia nhiệm vụ thành nhiều bước nhỏ, giúp Agent cân nhắc kỹ lưỡng từng điểm quyết định, giảm thiểu các quyết định sai lầm do quá tải thông tin, CoT làm cho quá trình ra quyết định của Agent trở nên minh bạch hơn, người dùng dễ dàng hiểu được cơ sở quyết định của Agent. Trong tương tác với môi trường, CoT cho phép Agent liên tục học hỏi thông tin mới và điều chỉnh chiến lược hành vi.
CoT như một chiến lược hiệu quả, không chỉ nâng cao khả năng suy luận của các mô hình ngôn ngữ lớn mà còn đóng vai trò quan trọng trong việc xây dựng các hệ thống AI Agent thông minh và đáng tin cậy hơn. Bằng cách tận dụng CoT, các nhà nghiên cứu và nhà phát triển có thể tạo ra các hệ thống thông minh thích ứng tốt hơn với môi trường phức tạp, có tính tự chủ cao. CoT đã thể hiện những lợi thế độc đáo của nó trong các ứng dụng thực tế, đặc biệt trong việc xử lý các nhiệm vụ phức tạp, bằng cách phân chia nhiệm vụ thành một loạt các bước nhỏ, không chỉ tăng độ chính xác trong việc giải quyết nhiệm vụ mà còn nâng cao tính giải thích và khả năng kiểm soát của mô hình. Phương pháp giải quyết vấn đề từng bước này có thể giảm thiểu đáng kể các quyết định sai lầm khi đối mặt với các nhiệm vụ phức tạp do thông tin quá tải hoặc quá phức tạp. Đồng thời, phương pháp này cũng nâng cao tính truy xuất và khả năng xác minh của toàn bộ giải pháp.
Chức năng cốt lõi của CoT là kết hợp kế hoạch, hành động và quan sát với nhau, lắp đầy khoảng trống giữa suy luận và hành động. Mô hình suy nghĩ này cho phép AI Agent lập kế hoạch các biện pháp hiệu quả khi dự đoán các tình huống bất thường có thể xảy ra, đồng thời tích lũy thông tin mới trong quá trình tương tác với môi trường bên ngoài, xác minh các dự đoán đã thiết lập trước đó, cung cấp cơ sở suy luận mới. CoT giống như một động cơ độ chính xác và ổn định mạnh mẽ, giúp AI Agent duy trì hiệu quả công việc cao trong môi trường phức tạp.
Bốn, Nhu cầu giả mạo đúng đắn
Crypto thực sự muốn kết hợp với những khía cạnh nào của ngăn xếp công nghệ AI? Trong bài viết năm ngoái, tôi cho rằng việc phi tập trung hóa tính toán và dữ liệu là bước quan trọng giúp các doanh nghiệp nhỏ và nhà phát triển cá nhân tiết kiệm chi phí, trong năm nay, trong phân khúc Crypto x AI mà Coinbase sắp xếp, chúng ta đã thấy sự phân chia chi tiết hơn:
(1)Lớp tính toán (chỉ mạng tập trung vào việc cung cấp tài nguyên đơn vị xử lý đồ họa (GPU) cho các nhà phát triển AI);
(2)Lớp dữ liệu (chỉ mạng hỗ trợ truy cập phi tập trung, sắp xếp và xác minh đường ống dữ liệu AI);
(3)Lớp trung gian (chỉ những nền tảng hoặc mạng hỗ trợ phát triển, triển khai và quản lý các mô hình hoặc tác nhân AI);
(4)Lớp ứng dụng (chỉ các sản phẩm hướng tới người dùng sử dụng cơ chế AI trên chuỗi, bất kể là B2B hay B2C).
Trong bốn lớp phân chia này, mỗi lớp đều có tầm nhìn lớn lao, mục tiêu tóm lại đều nhằm chống lại sự thống trị của các ông lớn Silicon Valley trong kỷ nguyên internet tiếp theo. Như tôi đã nói năm ngoái, chúng ta thật sự phải chấp nhận sự kiểm soát độc quyền về tính toán và dữ liệu của các ông lớn Silicon Valley? Trong mô hình lớn đóng kín dưới sự độc quyền của họ, bên trong lại là một chiếc hộp đen, khoa học như là tôn giáo được con người tin tưởng nhất hiện nay, mọi câu trả lời mà mô hình lớn trong tương lai đưa ra sẽ được một phần lớn người coi là chân lý, nhưng chân lý này sẽ được xác minh thế nào? Theo dự kiến của các ông lớn Silicon Valley, quyền hạn mà tác nhân cuối cùng sở hữu sẽ vượt qua sự tưởng tượng, chẳng hạn như quyền thanh toán cho ví của bạn, quyền sử dụng thiết bị đầu cuối, làm sao đảm bảo con người không có ác ý?
Phi tập trung là câu trả lời duy nhất, nhưng đôi khi chúng ta có cần xem xét hợp lý, có bao nhiêu người sẽ trả giá cho những tầm nhìn lớn lao này? Trong quá khứ, chúng ta có thể không cần xem xét chu kỳ kinh doanh và thông qua Token để bù đắp cho các sai lệch do lý tưởng hóa. Nhưng tình hình hiện nay rất nghiêm trọng, Crypto x AI cần kết hợp với thực tế để thiết kế lại, chẳng hạn như lớp tính toán cung cấp hai đầu trong tình trạng mất hiệu suất và không ổn định thì làm thế nào để cân bằng? Để đạt được sức cạnh tranh của đám mây tập trung. Số lượng người dùng thực tế của các dự án lớp dữ liệu thực sự là bao nhiêu, làm thế nào để kiểm tra tính chân thực và hiệu quả của dữ liệu cung cấp, và loại khách hàng nào cần những dữ liệu này? Các lớp còn lại đều tương tự, trong thời đại này, chúng ta không cần quá nhiều nhu cầu giả mạo có vẻ đúng.
Năm, Meme đã chạy ra khỏi SocialFi
Như tôi đã nói trong đoạn đầu, Meme đã một cách siêu tốc, bước ra khỏi hình thức SocialFi phù hợp với Web3. Friend.tech là Dapp phát súng đầu tiên trong vòng xã hội lần này, nhưng tiếc là đã thất bại do thiết kế Token vội vàng. Pump.fun thì xác minh tính khả thi của nền tảng thuần túy, không làm bất kỳ Token nào, không đặt ra bất kỳ quy tắc nào. Người cầu và người cung chú ý được thống nhất, bạn có thể phát meme, làm livestream, phát tiền, để lại bình luận, giao dịch, mọi thứ đều tự do, Pump.fun chỉ thu phí dịch vụ. Điều này về cơ bản giống như mô hình kinh tế chú ý của YouTube, Ins và các mạng xã hội hiện nay, chỉ khác là đối tượng thu phí khác nhau, trong cách chơi Pump.fun thì lại mang tính Web3 hơn.
Clanker của Base thì là một sản phẩm tổng hợp, nhờ vào hệ sinh thái tự tay xây dựng một hệ sinh thái tích hợp, Base có Dapp xã hội riêng của mình như một trợ giúp, hình thành một vòng kín hoàn chỉnh. Tác nhân Meme là hình thức 2.0 của Meme Coin, con người luôn thích cái mới, trong khi Pump.fun hiện đang ở vị trí trung tâm, từ góc độ xu hướng, những suy nghĩ kỳ quái của sinh vật silicon thay thế những meme tầm thường của sinh vật carbon chỉ là vấn đề thời gian.
Tôi đã đề cập đến Base vô số lần, chỉ là nội dung đề cập mỗi lần lại khác nhau, từ thời gian mà nói Base chưa bao giờ là người tiên phong, nhưng luôn là người chiến thắng.
Sáu, Tác nhân có thể còn gì nữa?
Từ góc độ thực tiễn, các tác nhân sẽ không thể phi tập trung trong một thời gian dài trong tương lai. Nhìn vào việc xây dựng tác nhân trong lĩnh vực AI truyền thống, đây không phải là vấn đề đơn giản mà chỉ cần phân quyền và mã nguồn mở là có thể giải quyết, nó cần kết nối với nhiều API để truy cập nội dung Web2, chi phí vận hành rất cao, thiết kế chuỗi tư duy và sự hợp tác của nhiều tác nhân thường vẫn phụ thuộc vào một con người làm trung gian. Chúng ta sẽ trải qua một thời gian chuyển tiếp dài cho đến khi xuất hiện một hình thức tích hợp phù hợp, có thể giống như UNI. Nhưng cũng giống như bài viết trước, tôi vẫn tin rằng các tác nhân sẽ tạo ra cú sốc lớn cho ngành của chúng ta, giống như sự tồn tại của Cex trong ngành của chúng ta, không đúng nhưng rất quan trọng.
Bài viết được phát hành bởi Stanford & Microsoft vào tháng trước (Tổng quan về AI Agent) mô tả nhiều ứng dụng của tác nhân trong ngành y tế, máy móc thông minh, thế giới ảo, và trong phụ lục của bài viết này đã có rất nhiều trường hợp thử nghiệm với GPT-4V tham gia vào phát triển game AAA hàng đầu.
Không cần quá khắt khe với tốc độ kết hợp với phi tập trung, tôi hy vọng rằng các tác nhân trước tiên sẽ hoàn thiện khả năng và tốc độ từ dưới lên, chúng ta có rất nhiều đống đổ nát và khoảng trống trong vũ trụ ảo cần chúng lấp đầy, vào thời điểm thích hợp, chúng ta sẽ xem xét cách để nó trở thành UNI tiếp theo.
Tài liệu tham khảo:
Chuỗi tư duy mà mô hình lớn 'xuất hiện', thực sự là một khả năng gì? Tác giả: Não cực thể
Một bài viết để hiểu về Agent, điểm dừng tiếp theo của mô hình lớn. Tác giả: LinguaMind
Bài viết này đến từ bài gửi, không đại diện cho quan điểm của BlockBeats.