Внутрисетевые ИИ-агенты: архитектура, примеры и заслуживающие внимания проекты

Автор: accelxr, 1KX Перевод: 0xjs@金财经;
Основная цель современных генеративных моделей — создание контента и фильтрация информации. Однако недавние исследования и дискуссии об агентах ИИ (автономных субъектах, которые используют внешние инструменты для достижения определенных пользователем целей) предполагают, что ИИ может быть существенно разблокирован, если ему будет предоставлен экономический доступ, аналогичный Интернету 1990-х годов.
Для этого агентам необходимо агентство в отношении активов, которые они могут контролировать, поскольку традиционные финансовые системы для них не созданы.
Именно здесь в игру вступает криптовалюта: Crypto обеспечивает уровень цифровых платежей и владения с быстрыми расчетами, что особенно подходит для создания агентов искусственного интеллекта.
В этой статье я познакомлю вас с концепциями агентов и архитектур агентов, примерами исследований того, как агенты приобретают новые свойства, выходящие за рамки традиционного LLM, а также проектами по созданию решений или продуктов на основе агентов на основе криптографии.
Что такое агент
Агенты ИИ — это организации, управляемые LLM, способные планировать и предпринимать действия для достижения целей в течение нескольких итераций.
Архитектура агента состоит из одного агента или нескольких агентов, которые работают вместе для решения проблем.
Обычно каждому агенту придается индивидуальность, и он имеет доступ к множеству инструментов, которые помогут ему выполнять свою работу самостоятельно или в составе команды.
Архитектура агента отличается от того, как мы обычно взаимодействуем с LLM сегодня:
Подсказки с нулевым выстрелом — это то, как большинство людей взаимодействуют с этими моделями: вы вводите подсказку, и LLM генерирует ответ на основе уже существующих знаний.
В агентной архитектуре вы инициализируете цель, LLM разбивает ее на подзадачи, а затем рекурсивно предлагает себе (или другим моделям) выполнить каждую подзадачу автономно, пока цель не будет достигнута.
Одноагентная и многоагентная архитектура.
Одноагентная архитектура: языковая модель самостоятельно выполняет все рассуждения, планирование и выполнение инструментов. Механизма обратной связи от других агентов не существует, но люди могут предоставлять обратную связь агентам.
Многоагентные архитектуры. Эти архитектуры включают в себя два или более агентов, где каждый агент может использовать одну и ту же языковую модель или другой набор языковых моделей. Агенты могут использовать один и тот же инструмент или разные инструменты. У каждого агента обычно есть своя роль.
Вертикальная структура: один агент действует как лидер, а другие агенты ему подчиняются. Это помогает организовать работу группы.
Горизонтальная структура: обсуждение задачи в большой группе, где каждый агент может видеть другие сообщения и добровольно выполнять задачу или вызывать инструменты.
Архитектура агента: файл конфигурации
У агентов есть профили или личности, которые определяют роли как сигналы, позволяющие влиять на поведение и навыки LLM. Это во многом зависит от конкретного приложения.
Наверное, многие сегодня уже используют это как прием подсказки: «Вы эксперт по питанию. Предоставьте мне план питания…». Интересно, что предоставление LLM ролей повышает его производительность по сравнению с базовым уровнем.
Файлы конфигурации можно создать следующими способами:
Ручная работа: профили, созданные вручную создателем, наиболее гибкие, но отнимающие много времени.​
Генерация LLM: используйте файл конфигурации, созданный LLM, который содержит набор правил по композиции и свойствам + (необязательно) небольшое количество примеров.
Выравнивание набора данных: профили создаются на основе наборов данных о реальных людях.
Архитектура агента: Память
Память агента хранит информацию, полученную из окружающей среды, и использует эту информацию для формулирования новых планов или действий. Память позволяет агенту саморазвиваться и действовать на основе своего опыта.​
Единая память: аналогична кратковременной памяти за счет контекстного обучения/постоянных подсказок. Все соответствующие воспоминания передаются агенту при каждом запросе. В основном ограничен размером контекстного окна.​
Смешанная: кратковременная + долговременная память. Кратковременная память – это временный буфер текущего состояния. Полезная или полезная долгосрочная информация постоянно хранится в базе данных. Есть несколько способов сделать это, но наиболее распространенным является использование векторных баз данных (воспоминания кодируются как вложения и сохраняются; вызов происходит в результате поиска по сходству).
Формат: естественный язык, база данных (например, SQL, настроенный для понимания запросов SQL), структурированный список, встраивание.
Архитектура агента: планирование
Сложные задачи деконструируются на более простые подзадачи, решаемые индивидуально.
Планирование без обратной связи:
При таком подходе после того, как агент совершает действие, он не получает обратной связи, влияющей на будущее поведение. Одним из примеров является «Цепочка мыслей» (CoT), где магистрантам предлагается выражать свои мыслительные процессы при предоставлении ответов.
Однопутное рассуждение (например, CoT с нулевым проходом)
Многопутевое рассуждение (например, самосогласованный CoT, когда создается несколько потоков CoT и используется ответ с наибольшей частотой)
Внешние планировщики (например, язык определения предметной области планирования)
Планирование с обратной связью:
Итеративно уточняйте подзадачи на основе внешней обратной связи.
Обратная связь от окружающей среды (например, сигнал завершения игровой задачи)
Человеческая обратная связь (например, получение обратной связи от пользователей)
Обратная связь с моделью (например, получение обратной связи от другого LLM – краудсорсинг)
Архитектура агента: действие
Действие отвечает за преобразование принимаемых агентом решений в конкретные результаты.
Поведенческие цели могут принимать различные формы, например:
Задание выполнено (например, изготовление железной кирки в Minecraft)
Коммуникация (например, обмен информацией с другим агентом или человеком)
Исследование окружающей среды (например, поиск собственного поведенческого пространства и изучение своих способностей).
Поведение обычно возникает в результате воспоминаний или следования плану, а пространство поведения состоит из внутренних знаний, API, баз данных/баз знаний и внешних моделей их использования.
Архитектура агента: приобретение возможностей
Чтобы агент мог правильно выполнять действия в пространстве действий, он должен обладать возможностями, специфичными для конкретной задачи. В основном есть два способа добиться этого:
С тонкой настройкой: обучайте своего агента на аннотированных человеком, созданных LLM или реальных примерах поведенческих данных.
Никакой тонкой настройки не требуется: врожденные возможности LLM можно использовать посредством более сложной разработки сигналов и/или разработки механизмов (т. е. включения внешней обратной связи или накопления опыта при проведении проб и ошибок).
Примеры агентов в литературе
Генеративные агенты: интерактивное моделирование человеческого поведения. Создание экземпляров генеративных агентов в виртуальной среде «песочницы» демонстрирует мультиагентные системы с эмерджентным социальным поведением. Начиная с одного заданного пользователем приглашения на предстоящую вечеринку в честь Дня святого Валентина, агент в течение следующих двух дней автоматически рассылает приглашения, знакомится с новыми людьми, знакомится друг с другом и координирует совместную вечеринку в нужное время. Вы можете попробовать это сами, используя реализацию a16z AI Town.
Описание Объясненный запланированный выбор (DEPS): первый многозадачный агент с нулевым результатом, который может выполнить более 70 задач Minecraft.
Voyager: первый агент Minecraft, управляемый LLM, который воплощает в себе обучение на протяжении всей жизни. Он может постоянно исследовать мир, приобретать различные навыки и делать новые открытия без вмешательства человека. Постоянно совершенствует свой код выполнения навыков на основе отзывов методом проб и ошибок.
КАЛИПСО: Агент, созданный для игры «Подземелья и драконы», который может помогать Мастеру подземелий создавать и рассказывать истории. Его кратковременная память построена на описаниях сцен, информации о монстрах и предыдущих обзорах.
Призрак в Minecraft (GITM): Агент со средними способностями в Minecraft, с вероятностью успеха 67,5% для получения алмазов и 100% вероятностью выполнения всех предметов в игре.
SayPlan: крупномасштабное планирование миссий для роботов на основе LLM с использованием трехмерного графического представления сцены, демонстрирующее способность выполнять долгосрочное планирование миссий для роботов на основе абстрактных и естественных языковых инструкций.
HuggingGPT: используйте ChatGPT для планирования задач на основе подсказок пользователя, выбора моделей на основе описаний в Hugging Face и выполнения всех подзадач, достижения впечатляющих результатов в языке, зрении, речи и других сложных задачах.
MetaGPT: принимает входные данные и выводит пользовательские истории/конкурентный анализ/требования/структуру данных/API/документацию и т. д. Внутри компании существует множество агентов, которые выполняют различные функции компании-разработчика программного обеспечения.
ChemCrow: химический агент LLM, предназначенный для выполнения таких задач, как органический синтез, открытие лекарств и дизайн материалов, с использованием 18 инструментов, разработанных экспертами. Независимо спланировал и осуществил синтез средства от насекомых, трех органокализаторов и руководил открытием нового хромофора.
BabyAGI: инфраструктура общего назначения для создания, определения приоритетов и выполнения задач с использованием OpenAI и векторных баз данных, таких как Chroma или Weaviate.
AutoGPT: еще один пример инфраструктуры общего назначения для запуска агентов LLM.
Примеры агентов в Crypto
(Примечание: не все примеры основаны на LLM + некоторые могут быть более свободно основаны на концепциях агентов)
FrenRug от Ritualnet: на основе игры GPT-4 «Продавец турецких ковров» { https://aiadventure.spiel.com/carpet }. Frenrug — это брокер, которого каждый может попытаться убедить купить ключ Friend.tech. Каждое пользовательское сообщение доставляется нескольким LLM, работающим на разных узлах Infernet. Эти узлы отвечают в цепочке, и LLM голосует за то, должен ли агент приобрести предлагаемый ключ. Когда отвечает достаточное количество узлов, голоса объединяются, и модель контролируемого классификатора определяет операцию и предоставляет доказательство достоверности в цепочке, позволяя проверить выполнение полиномиального классификатора вне цепочки.
Агент рынка прогнозов, использующий автонолы на Gnosis: AI-бот, по сути, представляет собой оболочку смарт-контракта для службы AI, к которой каждый может позвонить, заплатив и задав вопросы. Сервис отслеживает запрос, выполняет задачи и возвращает ответы по цепочке. Эта инфраструктура ботов с искусственным интеллектом была распространена на рынки прогнозов через Omen, где основная идея заключается в том, что агенты будут активно отслеживать и делать ставки на прогнозы на основе анализа новостей, в конечном итоге получая агрегированные прогнозы, которые ближе к истинным шансам. Агенты ищут рынок на Omen, самостоятельно платят «ботам» за прогнозы по теме и торгуют с помощью рынка.
Демонстрация ianDAOs GPT<>Safe: GPT использует облачный API транзакций Syndicateio для автономного управления USDC в безопасном кошельке с мультиподписями в собственной базовой цепочке. Вы можете поговорить с ним и внести предложения о том, как лучше всего использовать его капитал, и он может распределить его на основе ваших предложений.
Игровые агенты: здесь есть несколько идей, но, если коротко, ИИ-агенты в виртуальных средах — это как компаньоны (например, ИИ-NPC в Скайриме), так и конкуренты (например, стая пухлых пингвинов). Агенты могут автоматизировать стратегии получения доходов, предоставлять товары и услуги (например, владельцы магазинов, странствующие торговцы, поставщики сложных генеративных задач) или выступать в качестве полуигровых персонажей в Parallel Colony и Ai Arena.
Безопасные ангелы-хранители: используйте группу агентов искусственного интеллекта для мониторинга кошельков и защиты от потенциальных угроз, чтобы защитить средства пользователей и повысить безопасность кошельков. Функции включают в себя автоматический отзыв разрешений по контракту и вывод средств в случае аномалии или хакерской атаки.
Botto: Хотя Botto — это слабо определенный пример ончейн-агента, он демонстрирует концепцию автономного ончейн-художника, создающего работы, за которые голосуют держатели токенов и которые продаются на аукционе SuperRare. Можно представить себе различные расширения, использующие архитектуру мультимодального агента. ---
Некоторые примечательные агентские проекты
(Примечание: не все проекты основаны на LLM + некоторые могут быть более свободно основаны на концепциях агентов)
AIWay Finder — децентрализованный граф знаний протоколов, контрактов, контрактных стандартов, активов, функций, функций API, подпрограмм + путей (т. е. виртуальная дорожная карта экосистемы блокчейна, по которой может перемещаться агент поиска пути). Пользователи будут вознаграждены за определение возможных путей, используемых агентом. Кроме того, вы можете создать оболочку (т. е. агента), содержащую настройки персонажа и активации навыков, которые затем можно подключить к сети знаний Pathfinder.
Ritualnet. Как показано в приведенном выше примере frenrug, узел Ritual infernet можно использовать для настройки многоагентной архитектуры. Узлы прослушивают запросы внутри или вне цепочки и предоставляют выходные данные с дополнительными доказательствами.
Morpheus — одноранговая сеть персонального общего искусственного интеллекта, которая может выполнять смарт-контракты от имени пользователей. Это можно использовать для управления кошельком Web3 и намерениями передачи, анализа данных через интерфейсы чат-ботов, моделей рекомендаций для децентрализованных приложений и контрактов, а также расширения операций агента за счет долговременной памяти, которая соединяет данные приложения и пользователя.
Протокол Dain. Изучите несколько вариантов использования агентов на Solana. Недавно продемонстрировано развертывание бота для торговли криптовалютой, который может извлекать информацию внутри и вне цепочки для выполнения от имени пользователей (например, продавать BODEN, если Байден проиграет).
Naptha — протокол оркестрации агентов с рынком задач в цепочке для контрактных агентов, операторскими узлами для оркестрации задач, механизмом оркестрации рабочих процессов LLM, который поддерживает асинхронный обмен сообщениями между различными узлами, а также системой аттестации рабочих процессов для проверки выполнения.
Myshell — платформа для персонажей AI, похожая наcharacter.ai, где создатели могут монетизировать профили и инструменты агентов. Мультимодальная инфраструктура с некоторыми интересными примерами агентов, включая перевод, обучение, общение, кодирование и многое другое. Содержит простое создание агентов без кода и более продвинутый режим разработчика для сборки виджетов AI.
AI Arena – соревновательный PvP-файтинг, в котором игроки могут покупать, тренироваться и соревноваться с NFT с поддержкой ИИ. Игроки тренируют своих агентов NFT посредством имитационного обучения, при котором ИИ учится играть в игру на разных картах и ​​сценариях, изучая вероятности, связанные с действиями игрока. После обучения игроки могут отправлять своих агентов в ранговые бои, чтобы заработать жетоны. Не на основе LLM, но все же интересный пример возможностей агентской игры.
Протокол Virtuals — протокол для создания и развертывания мультимодальных агентов в играх и других онлайн-пространствах. К трем основным архетипам сегодняшней виртуальной реальности относятся зеркала IP-персонажей, агенты, выполняющие конкретные функции, и персональные аватары. Участники вносят данные и модели в виртуальную среду, а валидаторы выступают в роли привратников. Существует экономический уровень стимулов для содействия развитию и монетизации.
Brianknows — предоставляет пользователям пользовательский интерфейс для взаимодействия с агентами, которые могут выполнять транзакции, исследовать информацию, касающуюся криптовалюты, и своевременно развертывать смарт-контракты. В настоящее время поддерживает более 10 операций в более чем 100 интеграциях. Недавний пример — агент, делающий ставку ETH в Lido от имени пользователя, использующего естественный язык.
Autonolas — предоставляет легкие локальные и облачные агенты, децентрализованные агенты, управляемые консенсусом, и профессиональную агентскую экономику. Яркими примерами являются DeFi и агенты на основе прогнозов, представительство управления на основе искусственного интеллекта и рынки инструментов для взаимодействия между агентами. Предоставляя протокол + стек OLAS для координации и стимулирования операций агентов, это платформа с открытым исходным кодом, позволяющая разработчикам создавать агенты, находящиеся в коллективной собственности.
Creator.Bid — предоставляет пользователям агенты персонажей социальных сетей, подключенные к API X и Farcaster в реальном времени. Бренды могут запускать агентов, основанных на знаниях, для размещения соответствующего бренду контента на социальных платформах.
Polywrap — предлагает различные продукты на основе агентов, такие как Indexer (агент социальных сетей для Farcaster), AutoTx (агент планирования и исполнения сделок, созданный с помощью Morpheus и flock.io), Predictionprophet.ai (с агентом прогнозирования Gnosis и Autonolas) иfundpublicgoods. .ai (агент распределения грантовых ресурсов).
Проверка. Поскольку экономическими потоками будут управлять агенты, проверка результатов будет очень важна (подробнее об этом в будущей статье). Методы проверки включают zkML от Ora Protocol, решения по теории игр от таких команд, как Modulus Labs + Giza + EZKL, а также аппаратные решения, такие как TEE.​
Некоторые мысли об агентах в сети
Собственные, торгуемые, управляемые токенами агенты, которые могут выполнять различные типы функций, от партнерских отношений до финансовых приложений.
Агент, который может идентифицировать, изучать и участвовать в игровой экономике от вашего имени, или автономный агент, который может действовать как игрок в совместной, конкурентной или полностью смоделированной среде;
Агенты, которые могут имитировать реальное человеческое поведение для получения возможностей получения дохода.
Мультиагентный управляемый интеллектуальный кошелек, который может действовать как автономный управляющий активами.
Управление DAO, управляемое искусственным интеллектом (например, делегирование токенов, создание или управление предложениями, улучшение процессов и т. д.)
Используйте хранилище или базу данных Web3 в качестве компонуемой системы встраивания векторов для общего и постоянного состояния памяти.
Локально работающие агенты участвуют в глобальной консенсусной сети и выполняют определяемые пользователем задачи.
График знаний существующих и новых взаимодействий протоколов и API
Автономная сеть Guardian, безопасность с использованием нескольких подписей, безопасность смарт-контрактов и функциональные улучшения
По-настоящему автономная инвестиционная ДАО (например, ДАО для коллекционеров, использующая роли историка искусства, инвестиционного аналитика, аналитика данных и агента по деградации)
Моделирование и тестирование экономики токенов и безопасности контрактов
Универсальное управление намерениями, особенно в контексте пользовательского опыта криптовалюты, такого как мост или DeFi.
художественный или экспериментальный проект
Привлеките следующий миллиард пользователей
Как недавно сказал соучредитель Varaint Fund Джесси Уолден, автономные агенты — это эволюция, а не революция в использовании блокчейна: у нас уже есть роботы, выполняющие задачи по протоколам, роботы-снайперы, поисковики MEV, наборы инструментов для роботов и т. д. Агенты — всего лишь продолжение всего этого.
Многие области криптографии построены таким образом, чтобы облегчить работу агентов, например, полностью онлайн-игры и DeFi. Если предположить, что стоимость LLM имеет тенденцию к снижению по сравнению с производительностью задач + доступность создания и развертывания агентов увеличивается, трудно представить мир, в котором агенты ИИ не будут доминировать во взаимодействиях в цепочке и не станут следующим миллиардом пользователей криптовалюты.
Материал для чтения:
Агенты искусственного интеллекта, которые могут рассчитываться с помощью блокчейнов
Новая экономика агентов искусственного интеллекта будет работать на смарт-аккаунтах
Обзор автономных агентов на основе больших языковых моделей (я использовал его для определения таксономии агентных архитектур выше, настоятельно рекомендую) 
ReAct: синергия рассуждений и действий в языковых моделях
Генеративные агенты: интерактивные симулякры человеческого поведения
Рефлексия: языковые агенты с обучением с вербальным подкреплением
Toolformer: языковые модели могут научить себя использовать инструменты
Описывайте, объясняйте, планируйте и выбирайте: интерактивное планирование с использованием больших языковых моделей позволяет использовать многозадачные агенты в открытом мире 
«Вояджер»: открытый агент с большими языковыми моделями
Документы агентов LLM Репозиторий GitHub
Исходная ссылка
Другие публикации автора

Последние новости

Другие публикации автора

Последние новости

Популярные статьи