Autor: accelxr, 1KX; Traducción: 0xjs@金财经

El objetivo principal de los modelos generativos actuales es la creación de contenidos y el filtrado de información. Sin embargo, investigaciones y debates recientes sobre los agentes de IA (actores autónomos que utilizan herramientas externas para lograr objetivos definidos por el usuario) sugieren que la IA puede desbloquearse sustancialmente si se le proporciona un acceso económico similar al de Internet de los años noventa.

Para hacer esto, los agentes necesitan agencia sobre los activos que pueden controlar, ya que los sistemas financieros tradicionales no están configurados para ellos.

Aquí es donde las criptomonedas entran en juego: las criptomonedas proporcionan una capa de propiedad y pago digital con liquidación rápida que es particularmente adecuada para crear agentes de inteligencia artificial.

En este artículo, le presentaré los conceptos de agentes y arquitecturas de agentes, ejemplos de investigaciones sobre cómo los agentes tienen propiedades emergentes más allá del LLM tradicional y proyectos que crean soluciones o productos en torno a agentes basados ​​en criptografía.

que es un agente

Los agentes de IA son entidades impulsadas por LLM capaces de planificar y tomar acciones para lograr objetivos en múltiples iteraciones.

Una arquitectura de agente consta de uno o varios agentes que trabajan juntos para resolver problemas.

Normalmente, a cada agente se le asigna una personalidad y tiene acceso a una variedad de herramientas que le ayudarán a completar su trabajo de forma independiente o como parte de un equipo.

La arquitectura del agente es diferente de la forma en que normalmente interactuamos con los LLM en la actualidad:

Las indicaciones de disparo cero es la forma en que la mayoría de las personas interactúan con estos modelos: usted ingresa una indicación y el LLM genera una respuesta basada en su conocimiento preexistente.

En una arquitectura de agente, usted inicializa un objetivo, el LLM lo divide en subtareas y luego se solicita a sí mismo (u otros modelos) de forma recursiva que complete cada subtarea de forma autónoma hasta alcanzar el objetivo.

Arquitectura de agente único y arquitectura de agentes múltiples

Arquitectura de agente único: un modelo de lenguaje realiza todo el razonamiento, la planificación y la ejecución de herramientas por sí solo. No existe un mecanismo de retroalimentación de otros agentes, pero los humanos pueden optar por proporcionar retroalimentación a los agentes.

Arquitecturas multiagente: estas arquitecturas involucran dos o más agentes, donde cada agente puede usar el mismo modelo de lenguaje o un conjunto diferente de modelos de lenguaje. Los agentes pueden utilizar la misma herramienta o diferentes herramientas. Cada agente suele tener su propio rol.

  • Estructura vertical: un agente actúa como líder y otros agentes le reportan. Esto ayuda a organizar la producción del grupo.

  • Estructura horizontal: una discusión en grupo grande sobre una tarea, donde cada agente puede ver otros mensajes y ofrecerse como voluntario para completar la tarea o llamar a herramientas.

Arquitectura del agente: archivo de configuración

Los agentes tienen perfiles o personalidades que definen roles como señales para influir en el comportamiento y las habilidades del LLM. Esto depende en gran medida de la aplicación específica.

Probablemente muchas personas hoy en día ya utilizan esto como técnica de estímulo: "Tú eres el experto en nutrición. Dame un plan de alimentación...". Curiosamente, proporcionar roles a LLM mejora su rendimiento en comparación con la línea de base.

Los archivos de configuración se pueden crear de las siguientes maneras:

  • Hecho a mano: perfiles especificados manualmente por un creador humano; los más flexibles, pero también requieren mucho tiempo.​

  • Generación de LLM: utilice un archivo de configuración generado por LLM que contenga un conjunto de reglas sobre composición y propiedades + (opcionalmente) una pequeña cantidad de ejemplos de muestra.

  • Alineación del conjunto de datos: los perfiles se generan a partir de conjuntos de datos de personas del mundo real.

Arquitectura del agente: memoria

La memoria del agente almacena información percibida del entorno y utiliza esta información para formular nuevos planes o acciones. La memoria permite a un agente evolucionar y actuar en función de sus experiencias.​

  • Memoria unificada: similar a la memoria a corto plazo a través del aprendizaje contextual/mediante indicaciones continuas. Todos los recuerdos relevantes se pasan al agente en cada indicación. Limitado principalmente por el tamaño de la ventana contextual.​

  • Mixta: memoria de corto plazo + memoria de largo plazo. La memoria a corto plazo es un amortiguador temporal del estado actual. La información reflexiva o útil a largo plazo se almacena permanentemente en la base de datos. Hay varias formas de hacer esto, pero una común es usar bases de datos vectoriales (los recuerdos se codifican como incrustaciones y se almacenan; la recuperación proviene de la búsqueda de similitudes).

  • Formato: lenguaje natural, base de datos (por ejemplo, SQL ajustado para comprender consultas SQL), lista estructurada, incrustación

Arquitectura del agente: planificación

Las tareas complejas se deconstruyen en subtareas más simples que se resuelven individualmente.

Sin planificación de comentarios:

En este enfoque, después de que el agente realiza una acción, no recibe retroalimentación que afecte el comportamiento futuro. Un ejemplo es Chain of Thought (CoT), donde se anima a los LLM a expresar sus procesos de pensamiento al dar respuestas.

  • Razonamiento de ruta única (por ejemplo, CoT de paso cero)

  • Razonamiento de múltiples rutas (por ejemplo, CoT autoconsistente, donde se generan múltiples subprocesos de CoT y se utiliza la respuesta con mayor frecuencia)

  • Planificadores externos (por ejemplo, lenguaje de definición de dominio de planificación)

Planificación con comentarios:

Refinar de forma iterativa las subtareas en función de la retroalimentación externa

  • Comentarios ambientales (como la señal de finalización de la tarea del juego)

  • Comentarios humanos (por ejemplo, solicitar comentarios de los usuarios)

  • Comentarios del modelo (por ejemplo, solicitar comentarios de otro LLM - crowdsourcing)

Arquitectura del agente: acción

La acción se encarga de convertir la toma de decisiones del agente en resultados específicos.

Los objetivos de comportamiento se presentan en muchas formas posibles, como por ejemplo:

  • Tarea completada (por ejemplo, hacer un pico de hierro en Minecraft)

  • Comunicación (por ejemplo, compartir información con otro agente o humano)

  • Exploración ambiental (por ejemplo, buscar el propio espacio conductual y aprender las propias habilidades).

Los comportamientos generalmente surgen de la recuperación de la memoria o del seguimiento de un plan, y el espacio de comportamiento consiste en conocimiento interno, API, bases de datos/bases de conocimiento y modelos externos de su uso.

Arquitectura del agente: adquisición de capacidades

Para que un agente realice acciones correctamente dentro del espacio de acción, debe poseer capacidades específicas de la tarea. Hay principalmente dos formas de lograrlo:

  • Con ajustes: capacite a su agente en un conjunto de datos de comportamiento de ejemplo del mundo real, anotado por humanos, generado por un LLM.

  • No se requieren ajustes: las capacidades innatas de LLM se pueden explotar a través de ingeniería de señales y/o ingeniería de mecanismos más sofisticada (es decir, incorporando retroalimentación externa o acumulación de experiencia mientras se realiza prueba y error).

Ejemplos de agentes en la literatura.

Agentes generativos: simulación interactiva del comportamiento humano: la creación de instancias de agentes generativos en un entorno de pruebas virtual muestra sistemas de múltiples agentes con comportamiento social emergente. Comenzando con un único mensaje especificado por el usuario para una próxima fiesta del Día de San Valentín, el agente pasa los siguientes dos días enviando invitaciones automáticamente, conociendo gente nueva, saliendo entre ellos y coordinando fiestas en el momento adecuado. Puede probarlo usted mismo utilizando la implementación de a16z AI Town.

Descripción Selección de plan explicado (DEPS): el primer agente multitarea de disparo cero que puede completar más de 70 tareas de Minecraft.

Voyager: el primer agente de Minecraft impulsado por un LLM que incorpora el aprendizaje permanente, puede explorar continuamente el mundo, adquirir diversas habilidades y hacer nuevos descubrimientos sin intervención humana. Mejora continuamente su código de ejecución de habilidades en función de los comentarios de prueba y error.

CALYPSO: Un agente diseñado para el juego "Dungeons and Dragons" que puede ayudar al Dungeon Master a crear y contar historias. Su memoria a corto plazo se basa en descripciones de escenas, información de monstruos y resúmenes previos.

Ghost in Minecraft (GITM): Un agente con habilidades promedio en Minecraft, con una tasa de éxito del 67,5% en la obtención de diamantes y una tasa de finalización del 100% para todos los elementos del juego.

SayPlan: planificación de misiones a gran escala para robots basada en LLM, que utiliza representación gráfica de escenas en 3D, que demuestra la capacidad de realizar planificación de misiones a largo plazo para robots a partir de instrucciones abstractas y en lenguaje natural.

HuggingGPT: utilice ChatGPT para planificar tareas según las indicaciones del usuario, seleccionar modelos según descripciones en Hugging Face y ejecutar todas las subtareas, logrando resultados impresionantes en lenguaje, visión, habla y otras tareas desafiantes.

MetaGPT: acepta entradas y salidas de historias de usuarios/análisis competitivo/requisitos/estructura de datos/API/documentación, etc. Internamente existen múltiples agentes que conforman las diversas funciones de una empresa de software.

ChemCrow: un agente químico de LLM diseñado para realizar tareas como síntesis orgánica, descubrimiento de fármacos y diseño de materiales utilizando 18 herramientas diseñadas por expertos. Planificó y ejecutó de forma independiente la síntesis de un repelente de insectos, tres organocatalizadores y guió el descubrimiento de un nuevo cromóforo.

BabyAGI: una infraestructura de propósito general para crear, priorizar y ejecutar tareas utilizando OpenAI y bases de datos vectoriales como Chroma o Weaviate.

AutoGPT: otro ejemplo de infraestructura de propósito general para lanzar agentes LLM.

Ejemplos de agentes en Crypto

(Nota: no todos los ejemplos se basan en LLM + algunos pueden basarse más libremente en conceptos de agentes)

FrenRug de Ritualnet: Basado en el juego GPT-4 Turkish Carpet Salesman {https://aiadventure.spiel.com/carpet}. Frenrug es un corredor al que cualquiera puede intentar convencer para que compre su clave Friend.tech. Cada mensaje de usuario se entrega a múltiples LLM que se ejecutan en diferentes nodos de Infernet. Estos nodos responden en cadena y el LLM vota si el agente debe comprar la clave propuesta. Cuando responden suficientes nodos, los votos se agregan y el modelo de clasificador supervisado determina la operación y entrega una prueba de validez en la cadena, lo que permite verificar la ejecución fuera de la cadena del clasificador multinomial.

Agente de mercado de predicción que utiliza autonolas en Gnosis: el robot de IA es esencialmente un contenedor de contrato inteligente para el servicio de IA al que cualquiera puede llamar pagando y haciendo preguntas. El servicio monitorea la solicitud, realiza tareas y devuelve respuestas en cadena. Esta infraestructura de bot de IA se ha extendido a los mercados de predicción a través de Omen, con la idea básica de que los agentes monitorearán y apostarán activamente en las predicciones del análisis de noticias, llegando en última instancia a predicciones agregadas que se acercan más a las probabilidades reales. Los agentes buscan en el mercado en Omen, pagan de forma autónoma a "bots" por predicciones sobre el tema y comercian utilizando el mercado.

ianDAOs GPT<>Demostración segura: GPT utiliza la API de nube de transacciones syndicateio para administrar de forma autónoma USDC en la billetera multifirma segura en su propia cadena base. Puede hablar con él y hacerle sugerencias sobre cómo utilizar mejor su capital, y puede asignarlo en función de sus sugerencias.

Agentes de juego: aquí hay varias ideas, pero en pocas palabras, los agentes de IA en entornos virtuales son tanto compañeros (como los NPC de IA en Skyrim) como competidores (como un grupo de pingüinos regordetes). Los agentes pueden automatizar estrategias de ingresos, proporcionar bienes y servicios (por ejemplo, comerciantes, comerciantes ambulantes, proveedores de tareas generativas sofisticadas) o como personajes semi-jugables en Parallel Colony y Ai Arena.

Ángeles guardianes seguros: utilice un grupo de agentes de inteligencia artificial para monitorear billeteras y defenderse contra amenazas potenciales para proteger los fondos de los usuarios y mejorar la seguridad de las billeteras. Las características incluyen la revocación automática de permisos de contrato y el retiro de fondos en caso de una anomalía o un ataque de piratas informáticos.

Botto: si bien Botto es un ejemplo vagamente definido de un agente en cadena, demuestra el concepto de un artista autónomo en cadena, que crea obras que son votadas por los poseedores de tokens y subastadas en SuperRare. Se pueden imaginar varias extensiones que emplean la arquitectura de agente multimodal. ---

Algunos proyectos de agentes destacados

(Nota: no todos los proyectos se basan en LLM + algunos pueden basarse más libremente en conceptos de agentes)

AIWay Finder: un gráfico de conocimiento descentralizado de protocolos, contratos, estándares de contratos, activos, funciones, funciones API, rutinas + rutas (es decir, una hoja de ruta virtual del ecosistema blockchain que un agente pionero puede navegar). Los usuarios serán recompensados ​​por identificar rutas factibles utilizadas por el agente. Además, puedes crear un caparazón (es decir, un agente) que contenga la configuración del personaje y la activación de habilidades, que luego se pueden conectar al Gráfico de conocimiento de Pathfinder.

Ritualnet: como se muestra en el ejemplo anterior de frenrug, el nodo Ritual infernet se puede utilizar para configurar una arquitectura de múltiples agentes. Los nodos escuchan solicitudes dentro o fuera de la cadena y proporcionan resultados con pruebas opcionales.

Morpheus: una red peer-to-peer de IA general personal que puede ejecutar contratos inteligentes en nombre de los usuarios. Esto se puede utilizar para la gestión de intenciones de transmisión y billetera web3, el análisis de datos a través de interfaces de chatbot, modelos de recomendación para dapps y contratos, y la ampliación de las operaciones de los agentes a través de la memoria a largo plazo que conecta los datos de la aplicación y del usuario.

Protocolo Dain: explore múltiples casos de uso para implementar agentes en Solana. Recientemente se demostró el despliegue de un robot de comercio de criptomonedas que podría extraer información dentro y fuera de la cadena para ejecutarla en nombre de los usuarios (por ejemplo, vender BODEN si Biden pierde).

Naptha: protocolo de orquestación de agentes con un mercado de tareas en cadena para agentes contratados, nodos operadores para orquestar tareas, un motor de orquestación de flujo de trabajo LLM que admite mensajería asincrónica entre diferentes nodos y un sistema de certificación de flujo de trabajo para verificar la ejecución.

Myshell: una plataforma de personajes de IA similar a Character.ai donde los creadores pueden monetizar perfiles y herramientas de agentes. Infraestructura multimodal con algunos agentes de ejemplo interesantes que incluyen traducción, educación, compañerismo, codificación y más. Contiene una creación sencilla de agentes sin código y un modo de desarrollador más avanzado para ensamblar widgets de IA.

AI Arena: un juego de lucha PvP competitivo donde los jugadores pueden comprar, entrenar y competir contra NFT habilitados para IA. Los jugadores entrenan a sus agentes NFT a través del aprendizaje por imitación, donde la IA aprende a jugar en diferentes mapas y escenarios aprendiendo las probabilidades asociadas con las acciones del jugador. Después del entrenamiento, los jugadores pueden enviar a sus agentes a batallas clasificatorias para ganar recompensas simbólicas. No se basa en LLM, pero sigue siendo un ejemplo interesante de las posibilidades del juego de agentes.

Protocolo virtual: un protocolo para crear e implementar agentes multimodales en juegos y otros espacios en línea. Los tres arquetipos principales de lo virtual actual incluyen espejos de personajes IP, agentes con funciones específicas y avatares personales. Los contribuyentes aportan datos y modelos a lo virtual, y los validadores actúan como guardianes. Existe un nivel económico de incentivos para promover el desarrollo y la monetización.

Brianknows: proporciona a los usuarios una interfaz de usuario para interactuar con agentes que pueden realizar transacciones, investigar información específica de criptomonedas e implementar contratos inteligentes de manera oportuna. Actualmente admite más de 10 operaciones en más de 100 integraciones. Un ejemplo reciente es que un agente apueste ETH en Lido en nombre de un usuario que utiliza lenguaje natural.

Autonolas: proporciona agentes ligeros locales y basados ​​en la nube, agentes descentralizados operados por consenso y una economía de agentes profesionales. Los ejemplos destacados incluyen DeFi y agentes basados ​​en predicciones, representación de gobernanza impulsada por IA y mercados de herramientas de agente a agente. Al proporcionar un protocolo + pila OLAS para coordinar e incentivar las operaciones de los agentes, este es un marco de código abierto para que los desarrolladores creen agentes de propiedad colectiva.

Creator.Bid: proporciona a los usuarios agentes de personajes de redes sociales conectados a las API en tiempo real de X y Farcaster. Las marcas pueden lanzar agentes basados ​​en el conocimiento para ejecutar contenido coherente con la marca en plataformas sociales.

Polywrap: ofrece varios productos basados ​​en agentes, como Indexer (un agente de redes sociales para Farcaster), AutoTx (un agente de planificación y ejecución comercial creado con Morpheus y Flock.io), predictprophet.ai (con el agente de predicción Gnosis y Autonolas) y fundpublicgoods. .ai (un agente para la asignación de recursos de subvenciones).

Verificación: dado que los flujos económicos serán dirigidos por agentes, la verificación de la producción será muy importante (más sobre esto en un artículo futuro). Los métodos de verificación incluyen zkML de Ora Protocol, soluciones de teoría de juegos de equipos como Modulus Labs + Giza + EZKL y soluciones basadas en hardware como TEE.​

Algunas reflexiones sobre los agentes en cadena

  • Agentes de propiedad, negociables y controlados por tokens que pueden realizar varios tipos de funciones, desde compañía hasta aplicaciones financieras,

  • Un agente que puede identificar, aprender y participar en la economía del juego en su nombre o un agente autónomo que puede actuar como jugador en un entorno colaborativo, competitivo o totalmente simulado.

  • Agentes que pueden simular el comportamiento humano real para obtener oportunidades de ingresos.

  • Una billetera inteligente administrada por múltiples agentes que puede actuar como un administrador de activos autónomo

  • Gobernanza de DAO gestionada por IA (por ejemplo, delegación de tokens, creación o gestión de propuestas, mejoras de procesos, etc.)

  • Utilice el almacenamiento web3 o la base de datos como un sistema de incrustación de vectores componibles para el estado de la memoria compartida y persistente.

  • Los agentes que se ejecutan localmente participan en la red de consenso global y realizan tareas definidas por el usuario.

  • Gráfico de conocimiento de API e interacciones de protocolos nuevos y existentes

  • Red Guardian autónoma, seguridad de firmas múltiples, seguridad de contratos inteligentes y mejoras funcionales

  • Una DAO de inversión verdaderamente autónoma (por ejemplo, una DAO de coleccionista que utiliza los roles de historiador del arte, analista de inversiones, analista de datos y agente degenerativo)

  • Economía de tokens y simulación y pruebas de seguridad de contratos

  • Gestión universal de intenciones, especialmente en el contexto de experiencias de usuarios de criptomonedas como puentes o DeFi

  • proyecto artístico o experimental

Atraiga a los próximos mil millones de usuarios

Como dijo recientemente el cofundador de Varaint Fund, Jesse Walden, los agentes autónomos son una evolución, no una revolución, en la forma en que se utiliza blockchain: ya tenemos robots de tareas de protocolo, robots de francotiradores, buscadores MEV, kits de herramientas de robots, etc. Los agentes son sólo una extensión de todo esto.

Muchas áreas de las criptomonedas están construidas de manera que facilitan la ejecución de los agentes, como los juegos totalmente en cadena y DeFi. Suponiendo que el costo de LLM tiende a bajar en relación con el desempeño de la tarea + aumenta la accesibilidad para crear e implementar agentes, es difícil imaginar un mundo donde los agentes de IA no dominen las interacciones en cadena y se conviertan en los próximos mil millones de usuarios de criptomonedas.

Material de lectura:

Agentes de IA que pueden realizar operaciones bancarias mediante blockchains

La nueva economía de agentes de IA se basará en cuentas inteligentes

Una encuesta sobre agentes autónomos basados ​​en modelos de lenguaje grande (utilicé esto para identificar la taxonomía de las arquitecturas de agentes anteriores, lo recomiendo encarecidamente) 

ReAct: sinergia entre razonamiento y actuación en modelos lingüísticos

Agentes generativos: simulacros interactivos del comportamiento humano.

Reflexión: Agentes del lenguaje con aprendizaje por refuerzo verbal

Toolformer: Los modelos de lenguaje pueden aprender a usar herramientas por sí mismos

Describir, explicar, planificar y seleccionar: la planificación interactiva con modelos de lenguaje grandes permite agentes multitarea de mundo abierto 

Voyager: un agente encarnado abierto con grandes modelos de lenguaje

Documentos de agentes de LLM Repositorio de GitHub

Enlace original