Автор: YBB Capital Researcher Zeke
Вступ
У попередніх статтях ми вже неодноразово обговорювали погляди на стан AI Meme та майбутній розвиток AI агентів. Проте швидкість розвитку наративу та еволюція в секторі AI агентів все ще викликають певну розгубленість. Усього за два місяці з моменту відкриття «Терміналу істини» влітку агентів, наратив, пов'язаний із AI та криптовалютами, змінюється практично щотижня. Нещодавно увага ринку знову почала зосереджуватися на проектах класу «фреймворк», які керуються технологічним наративом; в цьому підсекторі лише за останні кілька тижнів з'явилися кілька чорних коней з ринковою капіталізацією понад мільярд доларів. Такі проекти також породили нову парадигму випуску активів, коли проекти випускають токени на основі кодових баз GitHub, а агенти, створені на основі фреймворка, також можуть випустити токени. Фреймворк служить основою, агент - верхом. Це схоже на платформу випуску активів, насправді ж це унікальна для епохи AI модель інфраструктури, яка починає з'являтися. Як ми повинні розглядати цю нову тенденцію? У цій статті ми почнемо з короткого вступу до фреймворка та поєднання своїх міркувань, щоб інтерпретувати, що AI фреймворк означає для криптовалют.
Один, що таке фреймворк?
За визначенням, AI фреймворк є типом інструменту або платформи для розробки, яка інтегрує набір попередньо створених модулів, бібліотек та інструментів, спрощуючи процес створення складних AI моделей. Ці фреймворки зазвичай також містять функції для обробки даних, навчання моделей та проведення прогнозів. Коротше кажучи, фреймворк можна в простій формі розглядати як операційну систему епохи AI, подібно до Windows, Linux у настільних операційних системах або iOS і Android у мобільних платформах. Кожен фреймворк має свої переваги та недоліки, і розробники можуть вільно обирати відповідно до своїх конкретних потреб.
Хоча термін «AI фреймворк» ще є новим у сфері криптовалют, з точки зору його походження, розвиток AI фреймворків вже триває майже 14 років, починаючи з Theano, яке було створено в 2010 році. У традиційній сфері AI, як у наукових колах, так і в промисловості, вже є дуже зрілі фреймворки на вибір, наприклад, TensorFlow від Google, Pytorch від Meta, PaddlePaddle від Baidu, MagicAnimate від ByteDance, і ці фреймворки мають свої переваги для різних сценаріїв.
Поточні проекти фреймворків у Crypto виникли на основі цього буму AI, що створює величезний попит на агентів, а потім розширюються на інші ніші криптовалют, в результаті чого виникають різні AI фреймворки в різних секторах. Розглянемо кілька основних фреймворків у сучасному колі, щоб розширити цю думку.
1.1 Eliza
Перш за все, на прикладі Eliza від ai16z, цей фреймворк є фреймворком для моделювання багатьох агентів, спеціально розробленим для створення, впровадження та управління автономними AI агентами. Він розроблений на основі TypeScript як мови програмування, його перевага полягає в кращій сумісності та легшій інтеграції API.
Згідно з офіційною документацією, Eliza в основному орієнтується на соціальні медіа, наприклад, підтримку інтеграції на кількох платформах, цей фреймворк пропонує функціонально повну інтеграцію Discord і підтримує голосові канали, автоматизовані облікові записи на платформі X/Twitter, інтеграцію Telegram та безпосередній доступ до API. Для обробки медіа-контенту підтримується читання та аналіз PDF-документів, витяг та підсумування контенту, транскрипція аудіо, обробка відео-контенту, аналіз та опис зображень, підсумування діалогу.
Поточні випадки використання, які підтримуються Eliza, в основному поділяються на чотири категорії:
Додатки типу AI асистент: агенти підтримки клієнтів, адміністратори спільноти, особисті помічники;
Ролі в соціальних медіа: автоматичні творці контенту, інтерактивні боти, представники бренду;
Знання працівників: дослідницькі помічники, аналітики контенту, обробники документів;
Інтерактивні ролі: ролі для рольових ігор, освітні консультанти, розважальні роботи.
Поточні моделі, які підтримуються Eliza:
Локальне виведення відкритих моделей: наприклад, Llama3, Qwen1.5, BERT;
Використання API OpenAI для хмарного виведення;
За замовчуванням конфігурація - Nous Hermes Llama 3.1B;
Інтеграція з Claude для реалізації складних запитів.
1.2 G.A.M.E
G.A.M.E(Generative Autonomous Multimodal Entities Framework) - це автоматизований багатофункціональний AI фреймворк, розроблений Virtual, який націлений на створення розумних NPC у іграх; цей фреймворк також особливий тим, що користувачі з низьким або безкодовим досвідом можуть також його використовувати, виходячи з тестового інтерфейсу, користувачам потрібно лише змінити параметри, щоб взяти участь у дизайні агента.
У структурі проекту основний дизайн G.A.M.E полягає в модульному проектуванні, де кілька підсистем працюють спільно; детальна структура наведена на малюнку нижче.
Інтерфейс підказок агента:Інтерфейс, через який розробники взаємодіють з AI фреймворком. Через цей інтерфейс розробники можуть ініціювати сесію та вказати параметри, такі як ID сесії, ID агента, ID користувача;
Підсистема сприйняття:Ця підсистема відповідає за отримання вхідної інформації та її синтез, а потім надсилає її стратегічному планувальному механізму. Вона також обробляє відповіді з модуля обробки діалогу;
Стратегічний планувальний механізм:Цей механізм є основною частиною всього фреймворку, розділений на високорівневий планувальник (High Level Planner) та низькорівневу стратегію (Low Level Policy). Високорівневий планувальник відповідає за визначення довгострокових цілей та планів, тоді як низькорівнева стратегія перетворює ці плани на конкретні дії;
Світовий контекст:Світовий контекст містить інформацію про середовище, стан світу та стан гри, ці дані допомагають агенту зрозуміти, в якій ситуації він знаходиться;
Модуль обробки діалогу:Модуль обробки діалогу відповідає за обробку повідомлень та відповідей, він може генерувати діалоги або реакції як вихід;
Оператор гаманця на ланцюзі:Оператор гаманця на ланцюзі може бути пов'язаний із застосуванням технології блокчейн, конкретні функції неясні;
Модуль навчання:Модуль навчання навчається на зворотному зв'язку та оновлює базу знань агента;
Робоча пам'ять:Робоча пам'ять зберігає останні дії агента, результати та поточні плани, а також іншу короткострокову інформацію;
Процесор довгострокової пам'яті:Процесор довгострокової пам'яті відповідає за вилучення важливої інформації про агента та його робочу пам'ять, а також за сортування на основі таких факторів, як важливість, недавність і релевантність;
Репозиторій агентів:Репозиторій агентів зберігає такі атрибути, як цілі агента, рефлексія, досвід та індивідуальність;
Планувальник дій:Планувальник дій генерує конкретні плани дій на основі низькорівневих стратегій;
Виконавець плану:Виконавець плану відповідає за виконання планів дій, створених планувальником дій.
Робочий процес: розробники запускають агента через інтерфейс підказок агента, підсистема сприйняття отримує вхідні дані та передає їх стратегічному планувальному механізму. Стратегічний планувальний механізм використовує систему пам'яті, світовий контекст та інформацію з бібліотеки агентів для розробки та виконання плану дій. Модуль навчання постійно контролює результати дій агента та коригує його поведінку на основі результатів.
Сценарії застосування: з точки зору всієї технічної архітектури, цей фреймворк в основному зосереджений на ухваленні рішень, зворотному зв'язку, сприйнятті та індивідуальності агентів у віртуальному середовищі; у випадках використання, окрім ігор, він також підходить для мета-всесвіту, і в нижньому списку Virtual можна побачити, що вже існує безліч проектів, які використовують цей фреймворк для створення.
1.3 Rig
Rig - це інструмент з відкритим кодом, написаний мовою Rust, спеціально розроблений для спрощення розробки програм для великих мовних моделей (LLM). Він надає єдиний інтерфейс для роботи, що дозволяє розробникам легко взаємодіяти з кількома постачальниками LLM (такими як OpenAI та Anthropic) і різними векторними базами даних (такими як MongoDB та Neo4j).
Ключові характеристики:
Єдиний інтерфейс: незалежно від постачальника LLM або типу векторного зберігання, Rig може забезпечити єдиний спосіб доступу, значно зменшуючи складність інтеграційної роботи;
Модульна архітектура:Усередині фреймворку використовується модульний дизайн, що містить такі ключові частини, як «Абстрактний рівень постачальника», «Інтерфейс зберігання векторів» і «Система інтелектуальних агентів», що забезпечує гнучкість і масштабованість системи;
Типова безпека:Використовуючи особливості Rust, реалізовано типову безпеку в операціях вбудовування, що забезпечує якість коду та безпеку під час виконання;
Висока продуктивність:Підтримує асинхронні моделі програмування, оптимізуючи можливості обробки паралельних запитів; вбудовані функції логування та моніторингу допомагають у технічному обслуговуванні та усуненні несправностей.
Робочий процес: коли користувач запитує доступ до системи Rig, він спочатку проходить через «Абстрактний рівень постачальника», який відповідає за стандартизацію різниць між постачальниками та забезпечує узгодженість обробки помилок. Далі, в основному шарі, інтелектуальні агенти можуть викликати різні інструменти або запитувати векторне сховище для отримання необхідної інформації. Нарешті, за допомогою таких розширених механізмів, як генерація з підсиленням пошуку (RAG), система може поєднувати пошук документів і розуміння контексту, генеруючи точні та значущі відповіді, які потім повертаються користувачу.
Сценарії застосування:Rig підходить не лише для створення систем відповідей на питання, що вимагають швидкої та точної відповіді, але також може використовуватися для створення ефективних інструментів пошуку документів, чат-ботів або віртуальних помічників з розумінням ситуації, навіть підтримує створення контенту, автоматично генеруючи текст або інші форми контенту на основі наявних даних.
1.4 ZerePy
ZerePy - це відкритий фреймворк на основі Python, призначений для спрощення процесу впровадження та управління AI агентами на платформі X (колишній Twitter). Він виник із проекту Zerebro, успадкувавши його основні функції, але спроектований більш модульно та зручно для розширення. Його мета - дозволити розробникам легко створювати персоналізовані AI агенти та реалізувати різні автоматизовані завдання та створення контенту на X.
ZerePy надає інтерфейс командного рядка (CLI), що полегшує користувачам управління та контролювання своїх впроваджених AI агентів «1». Його основна архітектура побудована на модульному дизайні, що дозволяє розробникам гнучко інтегрувати різні функціональні модулі, такі як:
Інтеграція LLM: ZerePy підтримує великі мовні моделі (LLM) OpenAI та Anthropic, що дозволяє розробникам вибрати найбільш підходящу модель для своїх застосувань. Це дозволяє агентам генерувати високоякісний текстовий контент;
Інтеграція з платформою X: фреймворк безпосередньо інтегрує API платформи X, що дозволяє агенту виконувати пости, відповіді, вподобання, перепости тощо;
Модульна система підключення: ця система дозволяє розробникам легко додавати підтримку інших соціальних платформ або сервісів, розширюючи функціональність фреймворку;
Система пам'яті (план на майбутнє): хоча поточна версія може ще не бути повністю реалізованою, але мета дизайну ZerePy включає інтеграцію системи пам'яті, щоб агент міг запам'ятовувати попередні взаємодії та контекстну інформацію, щоб генерувати більш послідовний та персоналізований контент.
Хоча проекти ZerePy та Eliza від a16z обидва прагнуть створити та керувати AI агентами, їх архітектура та цілі дещо відрізняються. Eliza більше акцентує увагу на моделюванні багатьох агентів та ширшому дослідженні AI, тоді як ZerePy зосереджується на спрощенні процесу впровадження AI агентів на конкретних соціальних платформах (X), більше орієнтуючись на спрощення в практичному застосуванні.
Два, відображення екосистеми BTC
Насправді, з точки зору розвитку, AI агенти мають багато спільного з екосистемою BTC наприкінці 2023 та на початку 2024 року, розвиток екосистеми BTC можна коротко описати як: BRC20-Atomical/Rune та інші конкуренції між протоколами - BTC L2 - BTCFi з центром на Babylon. У той же час AI агенти розвиваються швидше на базі зрілого традиційного стека AI технологій, але їх загальний шлях розвитку дійсно має багато спільного з екосистемою BTC, я коротко формулюю його так: конкуренція між фреймворками агентів класу GOAT/ACT-Social/аналітичними AI агентами. З точки зору тенденцій, інфраструктурні проекти, які працюють над децентралізацією та безпекою агентів, ймовірно, візьмуть на себе цю хвилю фреймворків та стануть основною темою наступного етапу.
Чи буде ця ніша, як і екосистема BTC, йти до однорідності та спекуляцій? Я вважаю, що ні; по-перше, наратив AI агентів не має на меті відтворити історію ланцюга смарт-контрактів; по-друге, існуючі проекти AI фреймворків, незалежно від того, наскільки вони дійсно сильні чи застрягли на етапі PPT або ctrl c + ctrl v, принаймні, пропонують новий шлях розвитку інфраструктури. Багато статей порівнюють AI фреймворки з платформами випуску активів, а агентів з активами; насправді, у порівнянні з платформою випуску Memecoin та протоколом мемів, я вважаю, що AI фреймворки більше нагадують майбутні публічні блокчейни, а агенти - майбутні Dapp.
У сучасному Crypto у нас є тисячі публічних блокчейнів, десятки тисяч Dapp. На загальних блокчейнах ми маємо BTC, Ethereum та різні гетерогенні блокчейни, а форма застосувань є більш різноманітною, наприклад, ігрові блокчейни, блокчейни для зберігання, Dex-блокчейни. Публічний блокчейн насправді дуже схожий на AI фреймворк, а Dapp також може добре відповідати агентам.
У епоху AI в Crypto, ймовірно, ми рухатимемося у цьому напрямку, майбутні дискусії переходять від суперечок про EVM та гетерогенні блокчейни до суперечок про фреймворки; тепер питання більше стосується того, як децентралізувати або, іншими словами, ланцюговувати? Я вважаю, що наступні AI інфраструктурні проекти розвиватимуться на цій основі, а інше питання, яке полягає в тому, яку цінність має це на блокчейні?
Три, в чому сенс ланцюгового підходу?
Блокчейн, незалежно від того, з чим він поєднується, завжди стикається з одним питанням: чи є сенс? У минулорічній статті я критикував заплутаність GameFi, надмірно попереднє розвиток інфраструктури, і в попередніх статтях про AI я також висловлював скептицизм щодо поєднання AI x Crypto в практичних сферах на цьому етапі. Адже рушійна сила наративу для традиційних проектів вже стає все слабшою, і лише кілька традиційних проектів, які мали хорошу ринкову продуктивність минулого року, зазвичай мали відповідну силу, щоб відповідати або перевищувати ринкову ціну. Я думав про те, яку цінність AI може принести Crypto? Я раніше розмірковував про агентів, які виконують наміри, мета-всесвіт, агенти як працівники та інші ідеї, які хоч і є попитом, але не мають повної необхідності для блокчейну. З комерційної точки зору, це не може замкнути цикл. У попередньому випуску згадувався агент-браузер, який реалізує намір, і це може викликати попит на маркування даних, обчислювальні потужності, але зв'язок між ними все ще недостатньо тісний, а обчислювальна частина, за багатьма аспектами, все ще переважно централізована.
Переосмислення шляхів успіху DeFi: причина, чому DeFi отримує частину традиційних фінансів, полягає в тому, що він має вищу доступність, кращу ефективність та нижчі витрати, не потребуючи довіри до централізованої безпеки. Якщо думати в цьому напрямку, я вважаю, що може бути ще кілька причин, які підтримують ланцюговий підхід агентів.
1.Чи може ланцюговий підхід агентів забезпечити нижчі витрати на використання, що призведе до більшої доступності та вибору? В кінцевому рахунку, розподіл «прав на оренду» AI, що належать великим компаніям Web2, дозволить звичайним користувачам також взяти участь;
2.Безпека: згідно з найпростішим визначенням агента, агент, який можна назвати агентом, повинен мати можливість взаємодіяти з віртуальним або реальним світом; якщо агент може втручатися в реальність або в мій віртуальний гаманець, то рішення на основі блокчейну також є необхідними;
3.Чи може агент реалізувати фінансові механізми, які унікальні для блокчейну? Наприклад, LP в AMM, що дозволяє звичайним людям також брати участь у автоматичному маркет-мейкінгу, або агенту, який потребує обчислювальних потужностей, маркування даних тощо, в той час як користувачі, зацікавлені, інвестують у протокол у вигляді U. Або, можливо, агенти можуть створити нові фінансові механізми на основі різних сценаріїв;
4.DeFi в даний час не має ідеальної взаємодії, і агенти, пов'язані з блокчейном, якщо зможуть реалізувати прозоре та відстежуване виведення, можуть бути більш привабливими, ніж агенти-браузери традиційних інтернет-гігантів, згадані в попередній статті.
Чотири, креативність?
Проекти класу фреймворк у майбутньому також нададуть можливість підприємництва, подібну до GPT Store. Хоча зараз випустити агента через фреймворк залишається досить складним для звичайного користувача, я вважаю, що спрощення процесу створення агента та надання деяких складних функцій у комбінації фреймворку в майбутньому все ще матиме перевагу, внаслідок чого виникне цікавіша креативна економіка Web3, ніж GPT Store.
Поточний GPT Store все ще більше орієнтований на практичність у традиційних сферах, і більшість популярних застосунків створені традиційними компаніями Web2, а доходи також є монополією творців. Згідно з офіційним поясненням OpenAI, ця стратегія надає фінансову підтримку лише деяким видатним розробникам у США, надаючи певний обсяг субсидій.
З точки зору потреб, у Web3 все ще існує безліч аспектів, які потребують заповнення, а в економічній системі це може зробити несправедливу політику гігантів Web2 більш справедливою; крім цього, ми також можемо залучити спільнотну економіку, щоб зробити агентів більш досконалими. Креативна економіка агентів буде можливістю, в якій можуть брати участь звичайні люди, і майбутні AI меми будуть значно розумнішими та цікавими, ніж агенти, випущені GOAT чи Clanker.
Посилання на статті:
1.Історичний розвиток та дослідження тенденцій AI фреймворків
2.Bybit: AI Rig Complex (ARC): AI агентний фреймворк
3.Deep Value Memetics: горизонтальне порівняння чотирьох великих фреймворків Crypto×AI: оцінка стану, переваг та недоліків, потенціалу зростання
4.Офіційна документація Eliza
5.Віртуальна офіційна документація