Деконструкція AI структури: від розумних агентів до децентралізованих досліджень

Спрощення процесу створення агентів і надання деяких складних функцій у структурі в майбутньому все ще матиме перевагу, що призведе до формування більш цікавої креативної економіки Web3, ніж GPT Store.
Автор: Дослідник YBB Capital Zeke
Передмова
У попередніх статтях ми неодноразово обговорювали ситуацію з AI Meme та перспективи розвитку AI агентів. Проте, швидкість розвитку наративу в секторі агентів та його еволюція змушує нас бути обережними. Лише за короткі два місяці з моменту відкриття «Терміналу істини», що започаткував літо агентів, наративи про AI та Crypto змінюються практично щотижня. Нещодавно ринок знову зосередив свою увагу на проектах типу «структура», що керуються технологічним наративом. Цей сегмент ринку лише за останні кілька тижнів вже показав кілька чорних коней з ринковою капіталізацією понад мільярд. Такі проекти також породили нову парадигму випуску активів, де проекти випускають токени на основі репозиторіїв коду GitHub, і агенти, створені на основі структури, також можуть повторно випустити токени. На основі структури, агенти зверху. Виглядає як платформа випуску активів, але насправді це нова модель інфраструктури, характерна для епохи AI. Як нам слід сприймати цей новий тренд? Ця стаття почне з введення в структуру та поєднання з власними роздумами, щоб розтлумачити, що насправді означає AI структура для Crypto.
Що таке структура?
Визначення AI структури - це базовий інструмент або платформа для розробки, що інтегрує набір попередньо побудованих модулів, бібліотек та інструментів, спрощуючи процес створення складних AI моделей. Ці структури зазвичай також містять функції для обробки даних, навчання моделей і прогнозування. Простими словами, ви можете також просто розуміти структуру як операційну систему епохи AI, таку ж, як Windows, Linux у настільних операційних системах або iOS та Android у мобільних пристроях. Кожна структура має свої переваги та недоліки, і розробники можуть вільно вибирати відповідно до конкретних потреб.
Хоча термін «AI структура» все ще є новим поняттям у сфері Crypto, його історія розвитку налічує вже близько 14 років, починаючи з Theano, що з'явився у 2010 році. У традиційній сфері AI, як у академічній, так і в промисловій, вже є дуже зрілі структури для вибору, такі як TensorFlow від Google, Pytorch від Meta, Flywheel від Baidu, MagicAnimate від ByteDance, і ці структури мають свої переваги для різних сценаріїв.
Наразі виникаючі в Crypto проекти структур базуються на величезному попиті на агентів, що виник із початку цього AI буму, а потім поширилися на інші траси Crypto, в результаті чого сформувалися AI структури в різних підсекторах. Давайте розглянемо кілька основних структур у цій сфері.
1.1 Eliza
По-перше, візьмемо приклад Eliza від ai16z, ця структура є багатогранною моделлю агентів, призначеною для створення, розгортання та управління автономними AI агентами. На базі TypeScript як мови програмування, її перевагою є краща сумісність та легкість інтеграції API.
Відповідно до офіційних документів, Eliza в основному орієнтується на соціальні медіа, такі як підтримка інтеграції на кількох платформах. Ця структура надає всебічну інтеграцію Discord, підтримує голосові канали, автоматизовані облікові записи на платформі X/Twitter, інтеграцію Telegram та прямий доступ до API. Щодо обробки медіа-контенту, підтримується читання та аналіз PDF файлів, витягування та узагальнення контенту, транскрипція аудіо, обробка відео-контенту, аналіз та опис зображень, резюмування діалогів.
Наразі Eliza підтримує чотири основні випадки використання:
AI асистивні програми: агенти підтримки клієнтів, адміністратори спільноти, особисті асистенти.
Ролі у соціальних медіа: автоматизовані творці контенту, інтерактивні боти, представники брендів.
Знання працівників: асистенти досліджень, аналітики контенту, обробники документів.
Інтерактивні ролі: ролі у рольових іграх, освітні консультанти, розважальні роботи.
Моделі, які наразі підтримує Eliza:
Локальна інференція для відкритих моделей: наприклад, Llama3, Qwen1.5, BERT.
Використання API OpenAI для хмарної інференції.
За замовчуванням налаштування для Nous Hermes Llama 3.1B.
Інтеграція з Claude для реалізації складних запитів.
1.2 G.A.M.E
G.A.M.E (Generative Autonomous Multimodal Entities Framework) - це автоматизована система генерації та управління багатомодальними AI агентами, випущена Virtual, яка в основному орієнтована на проектування інтелектуальних NPC у іграх. Ця структура також має особливість, що навіть користувачі без коду або з низьким кодом можуть брати участь; згідно з її інтерфейсом, користувачам достатньо просто змінити параметри, щоб взяти участь у проєкті агентів.
У проектній архітектурі основний дизайн G.A.M.E полягає в модульному проектуванні, що забезпечує спільну роботу кількох підсистем, детальна структура наведена на малюнку нижче.
1. Інтерфейс підказок агентів: інтерфейс, через який розробники взаємодіють зі структурою AI. Через цей інтерфейс розробники можуть ініціювати сесію та вказувати параметри, такі як ID сесії, ID агента, ID користувача тощо.
2. Підсистема сприйняття: підсистема сприйняття відповідає за отримання вхідних повідомлень та передачу їх до двигуна стратегічного планування. Вона також обробляє відповіді модуля обробки діалогів.
3. Двигун стратегічного планування: двигун стратегічного планування є основною частиною всієї архітектури, що складається з високорівневого планувальника (High Level Planner) та низькорівневої стратегії (Low Level Policy). Високорівневий планувальник відповідає за визначення довгострокових цілей та планів, тоді як низькорівнева стратегія перетворює ці плани на конкретні дії.
4. Контекст світу: світовий контекст містить інформацію про навколишнє середовище, стан світу та стан гри, ці дані допомагають агенту зрозуміти поточну ситуацію.
5. Модуль обробки діалогів: модуль обробки діалогів відповідає за обробку повідомлень та відповідей, він може генерувати діалоги або реакції як вихід.
6. Оператор гаманця на ланцюзі: оператор гаманця на ланцюзі може бути пов'язаний зі сценаріями використання технології блокчейн, конкретні функції неясні.
7. Модуль навчання: модуль навчання навчається на зворотному зв'язку та оновлює базу знань агента.
8. Робоча пам'ять: робоча пам'ять зберігає останні дії агента, результати та короткострокову інформацію про поточні плани.
9. Процесор довготривалої пам'яті: процесор довготривалої пам'яті відповідає за вилучення важливої інформації про агентів та їх робочу пам'ять, і ранжує їх за такими факторами, як важливість, недавність та релевантність.
10. Репозиторій агентів: репозиторій агентів зберігає цілі агентів, рефлексії, досвід та характеристики.
11. Планувальник дій: планувальник дій генерує конкретні плани дій відповідно до низькорівневих стратегій.
12. Виконавець плану: виконавець плану відповідає за реалізацію дій, створених планувальником дій.
Робочий процес: розробник запускає агента через інтерфейс підказок агента, підсистема сприйняття отримує дані та передає їх до двигуна стратегічного планування. Двигун стратегічного планування використовує систему пам'яті, контекст світу та інформацію з бібліотеки агентів для розробки та виконання плану дій. Модуль навчання постійно контролює результати дій агента та коригує поведінку агента на основі отриманих результатів.
Сценарії використання: з точки зору всієї технічної архітектури, ця структура в основному зосереджується на прийнятті рішень, зворотному зв'язку, сприйнятті та індивідуальності агентів у віртуальному середовищі; крім ігор, вона також підходить для Metaverse. У списку нижче під Virtual можна побачити, що вже багато проектів використовують цю структуру для побудови.
1.3 Rig
Rig - це відкритий інструмент, написаний на мові Rust, спеціально розроблений для спрощення розробки додатків на основі великих мовних моделей (LLM). Він надає єдиний операційний інтерфейс, що дозволяє розробникам легко взаємодіяти з кількома постачальниками LLM (такими як OpenAI та Anthropic) і різними векторними базами даних (такі як MongoDB та Neo4j).
Основні характеристики:
Уніфікований інтерфейс: незалежно від постачальника LLM або типу векторного зберігання, Rig може надати єдиний спосіб доступу, значно зменшуючи складність інтеграційної роботи.
Модульна архітектура: структура внутрішньо використовує модульний дизайн, що включає в себе «абстракцію постачальників», «інтерфейс зберігання векторів» та «систему розумних агентів», що забезпечує гнучкість та масштабованість системи.
Типова безпека: використовуючи особливості Rust, реалізовано безпечні вбудовані операції, що забезпечує якість коду та безпеку під час виконання.
Висока продуктивність: підтримка асинхронного програмування, оптимізація можливостей обробки одночасно; вбудовані функції журналювання та моніторингу допомагають у технічному обслуговуванні та усуненні несправностей.
Робочий процес: коли користувач запитує доступ до системи Rig, він спочатку проходить через «абстракцію постачальників», яка відповідає за стандартизацію відмінностей між різними постачальниками та забезпечує узгодженість обробки помилок. Потім у центральному шарі, розумний агент може викликати різні інструменти або запитувати векторне зберігання для отримання потрібної інформації. Нарешті, за допомогою механізмів, таких як підвищене генерування на основі пошуку (RAG), система може поєднувати пошук документів та розуміння контексту, щоб генерувати точні та змістовні відповіді, які повертаються користувачу.
Сценарії використання: Rig підходить не лише для створення систем швидкого та точного відповіді на запитання, а також для створення ефективних інструментів пошуку документів, чат-ботів зі сприйняттям контексту або віртуальних асистентів, навіть підтримує створення контенту, автоматично генеруючи текст або інші форми контенту на основі наявних даних.
1.4 ZerePy
ZerePy - це відкрите програмне забезпечення на базі Python, призначене для спрощення процесу розгортання та управління AI агентами на платформі X (колишній Twitter). Воно походить з проекту Zerebro, успадкувало його основні функції, але спроектоване більш модульно і легше розширюється. Його мета - дозволити розробникам легко створювати персоналізовані AI агенти та реалізовувати різні автоматизовані завдання та створення контенту на X.
ZerePy надає інтерфейс командного рядка (CLI), що полегшує управління та контроль за розгорнутими AI агентами «1». Його основна структура базується на модульному дизайні, що дозволяє розробникам гнучко інтегрувати різні функціональні модулі, наприклад:
Інтеграція LLM: ZerePy підтримує великі мовні моделі (LLM) OpenAI та Anthropic, розробники можуть вибрати модель, найкраще підходящу для їхнього сценарію використання. Це дозволяє агентам генерувати високоякісний текстовий контент.
Інтеграція з платформою X: структура безпосередньо інтегрує API платформи X, дозволяючи агентам виконувати публікацію, відповіді, лайки, ретвіти та інші дії.
Модульна система з'єднання: ця система дозволяє розробникам легко додавати підтримку інших соціальних платформ або послуг, розширюючи функціональність структури.
Система пам'яті (план на майбутнє): хоча поточна версія може ще не реалізувати все повністю, ціль розробки ZerePy включає інтеграцію системи пам'яті, що дозволяє агентам запам'ятовувати попередні взаємодії та контекстну інформацію, щоб генерувати більш послідовний та персоналізований контент.
Хоча ZerePy та проект Eliza від a16z прагнуть створити та управляти AI агентами, між ними є деякі відмінності в структурі та цілях. Eliza більше зосереджується на мультиагентному моделюванні та більш широких дослідженнях AI, тоді як ZerePy зосереджується на спрощенні процесу розгортання AI агентів на конкретних соціальних платформах (X), більше орієнтуючись на спрощення в реальному використанні.
Друге, версія BTC екосистеми.
Насправді з точки зору розвитку AI агентів існує чимало спільного з BTC екосистемою наприкінці 23 року та на початку 24 року. Розвиток BTC екосистеми можна спростити до: BRC20—конкуренція між багатьма протоколами Atomical/Rune—BTC L2—BTCFi на базі Babylon. AI агенти, втім, розвиваються швидше, ніж традиційні AI технології, однак їхній загальний шлях розвитку має багато спільного з BTC екосистемою. Я б спростив це так: GOAT/ACT—агенти соціального типу—конкуренція між аналітичними AI агентами. З точки зору тенденцій, інфраструктурні проекти, що зосереджуються на децентралізації агентів та їх безпеці, ймовірно, також підхоплять цю хвилю популярності структур.
Отже, чи буде цей сегмент ринку рухатися в напрямку гомогенізації та спекуляції, як BTC екосистема? Я вважаю, що це не так; по-перше, наратив AI агентів не має на меті відтворення історії ланцюгів смарт-контрактів; по-друге, існуючі проекти AI структури, незалежно від того, чи є вони дійсно потужними, чи застрягли на етапі PPT або ctrl c+ctrl v, принаймні надають нову думку про розвиток інфраструктури. Багато статей порівнюють AI структури з платформами випуску активів, агенти ж є активами. Насправді, порівняно з Memecoin Launchpad та протоколом гравюри, я вважаю, що AI структура більше схожа на майбутній публічний блокчейн, а агенти - на майбутні Dapp.
Сьогодні в Crypto у нас є тисячі публічних блокчейнів, десятки тисяч Dapp. У загальному ланцюгу ми маємо BTC, Ethereum та різноманітні гетерогенні ланцюги, тоді як форма застосування ланцюга є різноманітнішою, наприклад, ігрові ланцюги, ланцюги зберігання, Dex ланцюги. Публічний блокчейн, в принципі, дуже схожий на AI структуру, а Dapp також добре відповідає агентам.
У епоху AI Crypto, ймовірно, буде рухатися в цьому напрямку, майбутні суперечки також перейдуть від суперечок про EVM та гетерогенні ланцюги до суперечок про структури, тепер питання більше стосується того, як децентралізувати чи ланцюгувати? Я вважаю, що подальші плани з інфраструктури AI розпочнуться на цій основі, а інша сторона полягає в тому, яке значення має робити це на блокчейні?
Третє, значення ланцюга?
Блокчейн, незалежно від того, з чим він поєднується, завжди стикається з питанням: чи має це сенс? У минулорічній статті я критикував перевернутість GameFi, надмірний розвиток інфраструктури, у кількох попередніх статтях про AI я також висловлював песимізм щодо комбінації AI x Crypto на етапі практичного використання. Адже потужність наративу для традиційних проектів все більше зменшується, і кілька традиційних проектів, які показали хороші результати минулого року, насправді повинні мати силу, що відповідає або перевищує ціну їх токенів. Якими можуть бути переваги AI для Crypto? Раніше я думав про те, що агенти можуть діяти від імені користувача, Metaverse, агенти як працівники - це все ще досить тривіальні, але затребувані ідеї. Але ці потреби не мають абсолютно необхідності бути на блокчейні, з бізнес-логіки це також не може бути замкнутим колом. У попередньому номері я згадав, що ідея агента-браузера може призвести до потреби в позначеннях даних, обчислювальній потужності тощо, але зв'язок між цими двома все ще недостатньо тісний, а обчислювальна частина в комплексі все ще залишається централізованою.
Переосмислення шляхів успіху DeFi: DeFi, можливо, отримала частку від традиційних фінансів, оскільки має вищу доступність, кращу ефективність та нижчі витрати, не вимагаючи довіри до централізованої безпеки. Якщо ми подумаємо в цьому напрямку, я вважаю, що може бути кілька причин, чому підтримка ланцюговості агентів є важливою.
1. Зниження витрат: чи може ланцюгове використання агентів забезпечити нижчі витрати на використання, що дозволить досягти більшої доступності та вибірковості? Врешті-решт, це дозволить звичайним користувачам взяти участь у «орендних правах» AI, що належать великим компаніям Web2.
2. Безпека: за найпростішим визначенням, агент повинен мати можливість взаємодіяти з віртуальним або реальним світом. Якщо агент може втрутитися в реальність або мій віртуальний гаманець, тоді базовий блокчейн-рішення безпеки також є необхідністю.
3. Фінансові ігри, специфічні для блокчейна: чи може агент реалізувати набір фінансових ігор, призначених виключно для блокчейна? Наприклад, LP в AMM, дозволяючи звичайним людям також брати участь в автоматичному маркет-мейкерстві, наприклад, агенту потрібні обчислювальні потужності, позначення даних тощо, і користувачі можуть інвестувати в протокол у формі U, якщо вважають його перспективним. Або ж агенти, що базуються на різних сценаріях використання, можуть створити нові фінансові ігри.
4. Взаємодія DeFi: в даний час DeFi не має ідеальної взаємодії, якщо агенти на основі блокчейна зможуть реалізувати прозоре, простежуване розуміння, це може бути більш привабливим, ніж агент-браузер традиційних інтернет-гігантів, про яких говорилося в попередній статті.
Чотири, Креативність?
Проекти типу «структура» в майбутньому також нададуть можливість для підприємництва, схожу на GPT Store. Хоча наразі публікація агента через структуру є досить складною для звичайних користувачів, я вважаю, що спрощення процесу створення агентів та надання деяких складних комбінацій функцій у структурі в майбутньому все ще займе перевагу, що призведе до формування більш цікавої креативної економіки Web3, ніж GPT Store.
Сучасний GPT Store все ще схиляється до традиційних областей корисності, і більшість популярних додатків створені традиційними компаніями Web2, а також доходи є монополією для творців. Відповідно до офіційного пояснення OpenAI, ця стратегія надає фінансову підтримку лише деяким видатним розробникам у США, надаючи певні субсидії.
Web3 ще має багато аспектів, які потрібно заповнити з точки зору потреб, і в економічній системі також може зробити політику Web2 гігантів більш справедливою. Крім цього, ми можемо залучити економіку спільноти для вдосконалення агентів. Креативна економіка агентів стане можливістю для звичайних людей знову взяти участь, а майбутні AI Meme будуть значно розумнішими та цікавішими, ніж агенти, випущені на GOAT та Clanker.
Посилання на оригінал
Ця стаття публікується за погодженням з Deep Tide TechFlow.
Джерело
Деконструкція AI структури: від розумних агентів до децентралізованих досліджень

Перегляньте більше від автора

Останні новини