Автор оригіналу: YBB Capital Researcher Zeke
Один, починаючи з уваги та її ненависті до нового
Протягом минулого року, через відсутність наративу на прикладному рівні, що не могло відповідати швидкості сплеску інфраструктури, криптовалютна сфера поступово перетворилася на гру за ресурси уваги. Від Silly Dragon до Goat, від Pump.fun до Clanker, каприз уваги призвів до внутрішньої конкуренції у цій боротьбі. Розпочавши з найбанальнішої мети привернути увагу, ми швидко перейшли до платформи, що об'єднує попит та пропозицію уваги, а потім кремнієві біологічні форми стали новими постачальниками контенту. У дивних формах Meme Coin нарешті з'явилася сутність, що може досягти консенсусу між роздрібними інвесторами та VC: AI Agent.
Увага зрештою є нульовою сумою гри, але спекуляції дійсно можуть сприяти бурхливому розвитку. У статті про UNI ми вже згадували про початок золотого віку на блокчейні, причини стрімкого зростання DeFi походять з ери LP-майнінгу, запровадженої Compound Finance, де вхід та вихід з різних пулів, що дають 1000 або навіть 10000% Apy, були найпримітивнішими способами гри в той час, хоча в кінцевому підсумку різні пули зазнали краху. Але божевільний наплив золотих копачів дійсно залишив на блокчейні безпрецедентну ліквідність, DeFi врешті-решт вийшло за межі чистої спекуляції, створивши зрілу нішу, що задовольняє фінансові потреби користувачів у платежах, торгівлі, арбітражі, ставках тощо. А AI Agent на сьогоднішній день також переживає цей бурхливий етап, ми шукаємо, як Crypto може краще інтегруватися з AI і, врешті-решт, сприяти підйому прикладного рівня на нові висоти.
Два, як агент може діяти автономно
У попередній статті ми коротко згадали про походження AI Meme: Truth Terminal, а також про перспективи AI Agent у майбутньому. Ця стаття зосереджена насамперед на самому AI Agent.
Ми спочнемо з визначення AI Agent. Агент у сфері AI — це досить стара, але нечітко визначена термінологія, яка головним чином підкреслює автономність, тобто будь-який AI, який може сприймати навколишнє середовище та реагувати на нього, може називатися агентом. У сучасному визначенні AI Agent ближчий до інтелектуального агента, тобто встановлення системи, яка імітує людське прийняття рішень для великої моделі, яка в академічному середовищі розглядається як найбільш перспективний шлях до AGI (загального штучного інтелекту).
У ранніх версіях GPT ми явно могли відчути, що великі моделі дуже схожі на людей, але під час відповіді на багато складних питань великі моделі могли дати лише якісь невизначені відповіді. Основна причина полягає в тому, що в той час великі моделі базувалися на ймовірності, а не на причинності, а також їм бракувало здібностей, притаманних людині, таких як використання інструментів, пам'ять, планування тощо, що AI Agent може компенсувати ці недоліки. Отже, щоб узагальнити, AI Agent (інтелектуальний агент) = LLM (велика модель) + Планування + Пам'ять + Інструменти.
Модель великого зразка, що базується на підказках (Prompt), більше схожа на статичну особу, вона оживає лише коли ми вводимо дані, мета агента — бути більш реалістичною особою. На сьогодні в межах спільноти основні агенти ґрунтуються на налаштованих моделях Meta відкритого Llama 70b або 405b (з різними параметрами), які мають пам'ять та здатність використовувати API для доступу до інструментів. В інших аспектах їм, можливо, потрібна допомога або введення від людини (включаючи взаємодію та співпрацю з іншими агентами), тому ми можемо бачити, що основні агенти в спільноті все ще існують у формі KOL у соціальних мережах. Щоб зробити агентів більш схожими на людей, потрібно інтегрувати планування та здатності до дій, причому підпункт планування, ланцюг думок, є особливо критичним.
Три, ланцюг думок (Chain of Thought, CoT)
Концепція ланцюга думок (Chain of Thought, CoT) вперше з'явилася у 2022 році у статті Google (Chain-of-Thought Prompting Elicits Reasoning in Large Language Models), у якій зазначалося, що можна підвищити здатність моделі до міркування, генеруючи серію проміжних міркувань, що допомагає моделі краще розуміти та вирішувати складні проблеми.
Типовий CoT Prompt містить три частини: чітке описання завдання, логічні підстави для вирішення завдання, теоретичні основи або принципи, а також конкретні рішення. Така структурована форма допомагає моделі зрозуміти вимоги завдання, поступово наближаючись до відповіді через логічні міркування, що підвищує ефективність та точність вирішення проблем. CoT особливо підходить для завдань, які потребують глибокого аналізу та багатоступеневого міркування, таких як рішення математичних задач, написання проектних звітів та інші прості завдання. CoT може не принести помітних переваг у простих завданнях, але для складних завдань він значно покращує показники моделі, знижуючи рівень помилок завдяки поетапній стратегії вирішення.
Під час побудови AI Agent, CoT відіграє ключову роль, AI Agent повинен розуміти отриману інформацію та на основі цього приймати розумні рішення. CoT, надаючи упорядкований спосіб мислення, допомагає Agent ефективно обробляти та аналізувати вхідну інформацію, перетворюючи результати аналізу на конкретні рекомендації для дій. Цей підхід не лише підвищує надійність та ефективність рішень Agent, але й підвищує прозорість процесу прийняття рішень, роблячи поведінку Agent більш передбачуваною та відстежуваною. CoT, розкладаючи завдання на кілька малих кроків, допомагає Agent детально розглянути кожну точку прийняття рішення, зменшуючи помилки, викликані перевантаженням інформацією. CoT робить процес прийняття рішень Agent більш прозорим, користувачам легше зрозуміти підстави рішень Agent. У взаємодії з навколишнім середовищем CoT дозволяє Agent постійно вчитися новій інформації та коригувати стратегію поведінки.
CoT, як ефективна стратегія, не лише підвищила здатність до міркування великих мовних моделей, але й відіграла важливу роль у створенні більш розумних та надійних AI Agent. Використовуючи CoT, дослідники та розробники можуть створювати більш адаптивні до складних умов інтелектуальні системи з високою автономією. CoT демонструє свої унікальні переваги на практиці, особливо при вирішенні складних завдань. Розкладаючи завдання на ряд малих кроків, CoT не лише підвищує точність вирішення завдань, але й покращує пояснюваність та контрольованість моделі. Цей поетапний підхід до вирішення проблем може значно зменшити помилки, викликані надмірною кількістю або складністю інформації при вирішенні складних завдань. Одночасно цей підхід також підвищує відстежуваність та перевіряність всього рішення.
Основна функція CoT полягає в інтеграції планування, дій та спостережень, заповнюючи розрив між міркуваннями та діями. Цей спосіб мислення дозволяє AI Agent розробляти ефективні стратегії в разі передбачуваних аномальних ситуацій, а також накопичувати нову інформацію, перевіряти попередньо встановлені прогнози під час взаємодії з зовнішнім середовищем, надаючи нові підстави для міркування. CoT подібний до потужного двигуна точності та стабільності, що допомагає AI Agent підтримувати високу ефективність роботи в складних умовах.
Чотири, правильні псевдопотреби
З якими аспектами технологічного стеку AI має поєднуватися Crypto? У минулорічній статті я вважав, що децентралізація обчислювальної потужності та даних є ключовим кроком для допомоги малим підприємствам та індивідуальним розробникам заощаджувати витрати, а в цьому році в сегменті Crypto x AI, що був зібраний Coinbase, ми побачили більш детальне розмежування:
(1) Обчислювальний рівень (мережа, що зосереджується на наданні ресурсів графічних процесорів (GPU) для розробників AI);
(2) Рівень даних (мережа, що підтримує децентралізований доступ, оркестрацію та перевірку AI даних);
(3) Рівень проміжного програмного забезпечення (програмне забезпечення або мережа, що підтримує розробку, розгортання та хостинг AI моделей або агентів);
(4) Застосунковий рівень (продукти, що використовують механізми AI на блокчейні, як у B2B, так і B2C).
У цих чотирьох рівнях поділу кожен рівень має грандіозні візії, мета яких, в загальному підсумку, полягає у протистоянні домінуванню гігантів з Кремнієвої долини в наступній епосі Інтернету. Як я вже сказав минулого року, чи дійсно ми маємо прийняти, що гіганти з Кремнієвої долини контролюють обчислювальну потужність і дані? В умовах їхньої монополії закриті моделі всередині являють собою чорну коробку. Наука, як найсучасніша релігія для людства, в майбутньому кожне слово, на яке відповідатиме велика модель, буде сприйнято багатьма як істина, але як цю істину перевіряти? Згідно з уявленнями гігантів з Кремнієвої долини, повноваження, якими в кінцевому підсумку володіє агент, будуть непередбачуваними, наприклад, право на оплату з вашого гаманця, право на використання термінала. Як можна гарантувати, що людина не має злих намірів?
Децентралізація є єдиною відповіддю, але чи потрібно нам іноді розумно враховувати, скільки з цих грандіозних візій мають своїх платників? У минулому ми могли не враховувати комерційний замкнутий цикл, компенсуючи помилки, викликані ідеалізацією, через токени. Але нинішня ситуація є дуже суворою, Crypto x AI потребує поєднання з реальністю для подальшого проектування, наприклад, як балансувати між двома кінцями, якщо обчислювальний рівень має втрати в продуктивності та нестабільність? Щоб досягти конкурентоспроможності централізованих хмарних рішень. Скільки реальних користувачів буде у проектів на рівні даних, як перевірити реальність та ефективність наданих даних, і які клієнти потребують ці дані? Інші рівні аналогічні, у цю епоху нам не потрібні так багато, здавалося б, правильних псевдопотреб.
П'ять, Meme вийшло в SocialFi
Як я вже сказав у першому абзаці, Meme вже надзвичайно швидко вийшло у відповідну форму SocialFi на Web3. Friend.tech став першим Dapp, що відкрив цю чергу соціальних застосувань, але, на жаль, зазнав невдачі через поспішний дизайн токенів. Pump.fun підтвердив життєздатність чистої платформи, не створюючи жодних токенів, і не встановлюючи жодних правил. Попит та пропозиція уваги об'єднані, ви можете на платформі публікувати меми, вести прямі трансляції, випускати монети, залишати коментарі, торгувати — все це вільно, Pump.fun стягує лише комісію за послуги. Це в основному збігається з нинішньою моделлю економіки уваги соціальних медіа, таких як YouTube, Ins, лише об'єкти стягування відрізняються, а в грі Pump.fun ще більше схоже на Web3.
Base Clanker є інтегратором, завдяки екологічній системі, яка була розроблена самостійно, у Base є свій соціальний Dapp як допоміжний засіб, що формує повний внутрішній замкнутий цикл. Інтелектуальний агент Meme є формою 2.0 Meme Coin, люди завжди прагнуть новизни, а Pump.fun наразі знаходиться на піку популярності, з точки зору тенденцій, фантазії кремнієвих біологічних форм замінять примітивні жарти вуглецевих біологічних форм — це лише питання часу.
Я вже безліч разів згадував про Base, але щоразу згадка про різні аспекти. З точки зору хронології, Base ніколи не був піонером, але завжди є переможцем.
Шість, ким ще може бути агент?
З практичної точки зору, агенти в найближчий час не можуть бути децентралізованими. З точки зору традиційного зведення агентів у сфері AI, це не просто питання децентралізації та відкритості процесу міркувань, це вимагає доступу до різних API для отримання контенту Web2. Їх експлуатаційні витрати є дуже високими, проектування ланцюга думок і співпраця багатьох агентів зазвичай все ще залежить від людини як посередника. Ми пройдемо через тривалий перехідний період, поки не з'явиться відповідна форма інтеграції, можливо, як UNI. Але, як і в попередній статті, я все ще вважаю, що агенти завдадуть великого удару по нашій галузі, як Cex у нашій галузі — це неправильно, але дуже важливо.
Стаття, опублікована минулого місяця Stanford Microsoft (Огляд AI Agent), детально описує застосування агентів у медичній сфері, інтелектуальних машинах, віртуальних світах, а в додатку до цієї статті вже є безліч експериментальних кейсів, де GPT-4 V виступає агентом у розробці топових 3A ігор.
Не варто надто сильно наполягати на швидкості поєднання з децентралізацією, я більше сподіваюся, що першим заповненим пазлом агента стануть його можливості та швидкість знизу вгору. У нас є стільки наративних руїн і порожніх метавсесвітів, які потребують заповнення, і на відповідному етапі ми знову розглянемо, як зробити його наступним UNI.
Список літератури
Яка ж насправді здатність ланцюга думок (CoT) великої моделі? Автор: Нейроінтелект
Однією статтею зрозуміти Agent, наступна зупинка великої моделі. Автор: LinguaMind