Deconstrucción del marco de AI: de agentes inteligentes a exploraciones descentralizadas

Autor: Investigador de YBB Capital Zeke
Introducción
En artículos anteriores, hemos discutido varias veces nuestras opiniones sobre el estado actual de los Memes AI y el futuro desarrollo de los AI Agents. Sin embargo, la rapidez de la evolución y el desarrollo narrativo en el campo de los AI Agents ha sido un poco abrumador. Desde que se abrió el "Terminal de la Verdad" y comenzó el verano de los Agentes, en solo dos meses, la narrativa de la combinación de AI y Crypto ha tenido cambios casi semanales. Recientemente, la atención del mercado ha comenzado a centrarse nuevamente en los proyectos de tipo "marco" dirigidos por la narrativa técnica. Este segmento ha producido varias sorpresas en el mercado con valoraciones de mil millones o más en las últimas semanas. Este tipo de proyectos también ha dado lugar a un nuevo paradigma de emisión de activos, donde los proyectos emiten monedas basándose en repositorios de código de Github, y los Agentes construidos sobre marcos también pueden emitir monedas nuevamente. Con el marco como base y el Agente arriba. Aunque se asemeja a una plataforma de emisión de activos, de hecho, está surgiendo un modelo de infraestructura único para la era de AI. ¿Cómo debemos examinar esta nueva tendencia? Este artículo comenzará con una introducción al marco y combinará reflexiones personales para interpretar qué significa realmente un marco de AI para Crypto.
Uno, ¿qué es un marco?
Desde la definición, un marco de AI es una herramienta o plataforma de desarrollo de nivel inferior que integra un conjunto de módulos, bibliotecas y herramientas preconstruidas, simplificando el proceso de construcción de modelos de AI complejos. Estos marcos a menudo también incluyen funciones para procesar datos, entrenar modelos y hacer predicciones. En resumen, también puedes entender el marco como el sistema operativo de la era de AI, similar a los sistemas operativos de escritorio como Windows y Linux, o a los sistemas móviles como iOS y Android. Cada marco tiene sus propias ventajas y desventajas, y los desarrolladores pueden elegir libremente según sus necesidades específicas.
Aunque el término "marco de AI" todavía es un concepto emergente en el campo de Crypto, desde su origen en 2010 con Theano, el desarrollo de marcos de AI ha estado en proceso durante casi 14 años. En el círculo tradicional de AI, ya hay marcos muy maduros disponibles para elegir, como TensorFlow de Google, Pytorch de Meta, PaddlePaddle de Baidu, y MagicAnimate de ByteDance. Cada uno de estos marcos tiene sus propias ventajas en diferentes escenarios.
Los proyectos de marcos que han surgido en Crypto actualmente han sido creados a raíz de la gran demanda de Agentes desencadenada por esta ola de AI, y luego se han ramificado hacia otras áreas de Crypto, formando finalmente marcos de AI en diferentes campos de especialización. Tomemos algunos de los marcos más populares en el círculo actual como ejemplo para ampliar esta afirmación.
1.1 Eliza
Tomando como ejemplo a Eliza de ai16z, este marco es un marco de simulación de múltiples Agentes, diseñado específicamente para crear, desplegar y gestionar Agentes AI autónomos. Desarrollado en TypeScript como lenguaje de programación, su ventaja es una mejor compatibilidad, facilitando la integración de API.
Según la documentación oficial, Eliza se centra principalmente en escenarios de redes sociales, como el soporte para integración multiplataforma. Este marco ofrece una integración completa con Discord y soporte para canales de voz, cuentas automatizadas en X/Twitter, integración con Telegram y acceso directo a la API. En cuanto al procesamiento de contenido mediático, admite la lectura y análisis de documentos PDF, extracción y resumen de contenido de enlaces, transcripción de audio, procesamiento de contenido de video, análisis y descripción de imágenes, y resumen de diálogos.
Los casos de uso actualmente soportados por Eliza son principalmente cuatro tipos:
Aplicaciones de tipo asistente AI: agentes de soporte al cliente, administradores de comunidad, asistentes personales;
Roles en redes sociales: creadores de contenido automáticos, bots interactivos, representantes de marcas;
Trabajadores del conocimiento: asistentes de investigación, analistas de contenido, procesadores de documentos;
Roles interactivos: personajes de juegos de rol, tutores educativos, robots de entretenimiento.
Modelos soportados actualmente por Eliza:
Inferencia local de modelos de código abierto: como Llama3, Qwen1.5, BERT;
Uso de la API de OpenAI para inferencia en la nube;
La configuración predeterminada es Nous Hermes Llama 3.1B;
Integración con Claude para consultas complejas.
1.2 G.A.M.E
G.A.M.E (Generative Autonomous Multimodal Entities Framework) es un marco de AI multimodal automático para generación y gestión lanzado por Virtual, diseñado principalmente para NPCs inteligentes en juegos. Este marco también tiene una particularidad, ya que los usuarios con una base de código bajo o sin código también pueden usarlo. Según su interfaz de prueba, los usuarios solo necesitan modificar parámetros para participar en el diseño de Agentes.
En términos de arquitectura del proyecto, el diseño central de G.A.M.E es un diseño modular que permite la colaboración de múltiples subsistemas, como se muestra en la imagen a continuación.
Interfaz de Sugerencias de Agentes: el interfaz a través del cual los desarrolladores interactúan con el marco de AI. A través de esta interfaz, los desarrolladores pueden iniciar una sesión y especificar parámetros como ID de sesión, ID de Agente, ID de usuario, etc.;
Subsistema de Percepción: el subsistema de percepción es responsable de recibir información de entrada y sintetizarla antes de enviarla al motor de planificación estratégica. También maneja las respuestas del módulo de procesamiento de diálogos;
Motor de Planificación Estratégica: el motor de planificación estratégica es la parte central de todo el marco, dividido en planificadores de alto nivel y políticas de bajo nivel. El planificador de alto nivel es responsable de formular objetivos y planes a largo plazo, mientras que la política de bajo nivel convierte esos planes en pasos de acción concretos;
Contexto Mundial: el contexto mundial contiene información ambiental, el estado del mundo y datos sobre el estado del juego, que ayudan a los Agentes a comprender la situación actual;
Módulo de Procesamiento de Diálogos: el módulo de procesamiento de diálogos es responsable de manejar mensajes y respuestas, y puede generar diálogos o reacciones como salida;
Operador de Billetera en Cadena: el operador de billetera en cadena puede involucrar aplicaciones de tecnología blockchain, con funciones específicas no claras;
Módulo de Aprendizaje: el módulo de aprendizaje aprende de la retroalimentación y actualiza la base de conocimientos del Agente;
Memoria de Trabajo: la memoria de trabajo almacena las acciones recientes del Agente, resultados y planes actuales, entre otra información a corto plazo;
Procesador de Memoria a Largo Plazo: el procesador de memoria a largo plazo es responsable de extraer información importante sobre el Agente y su memoria de trabajo, clasificándola según factores como la puntuación de importancia, la recencia y la relevancia;
Repositorio de Agentes: el repositorio de Agentes almacena los objetivos, reflexiones, experiencias y características del Agente;
Planificador de Acciones: el planificador de acciones genera planes de acción concretos según la política de bajo nivel;
Ejecutor de Planes: el ejecutor de planes es responsable de llevar a cabo los planes de acción generados por el planificador de acciones.
Flujo de trabajo: los desarrolladores inician el Agente a través de la interfaz de sugerencias del Agente, el subsistema de percepción recibe la entrada y la transmite al motor de planificación estratégica. El motor de planificación estratégica utiliza el sistema de memoria, el contexto mundial y la información del repositorio de Agentes para formular y ejecutar planes de acción. El módulo de aprendizaje monitorea continuamente los resultados de las acciones del Agente y ajusta el comportamiento del Agente en función de los resultados.
Escenarios de aplicación: desde la perspectiva de toda la arquitectura técnica, este marco se centra principalmente en la toma de decisiones, retroalimentación, percepción y personalidad de los Agentes en entornos virtuales. Además de los videojuegos, también es aplicable al Metaverso. En la lista debajo de Virtual, se puede ver que ya hay numerosos proyectos que han adoptado este marco para su construcción.
1.3 Rig
Rig es una herramienta de código abierto escrita en Rust, diseñada para simplificar el desarrollo de aplicaciones de modelos de lenguaje grandes (LLM). Proporciona una interfaz operativa unificada que permite a los desarrolladores interactuar fácilmente con múltiples proveedores de servicios LLM (como OpenAI y Anthropic) y varias bases de datos de vectores (como MongoDB y Neo4j).
Características clave:
Interfaz unificada: independientemente del proveedor de LLM o del tipo de almacenamiento de vectores, Rig puede proporcionar un acceso consistente, reduciendo drásticamente la complejidad del trabajo de integración;
Arquitectura modular: el marco interno utiliza un diseño modular, que incluye partes clave como "capa de abstracción de proveedores", "interfaz de almacenamiento de vectores" y "sistema de agentes inteligentes", garantizando la flexibilidad y escalabilidad del sistema;
Seguridad de tipos: se ha implementado una operación de inserción segura en tipos utilizando las características de Rust, garantizando la calidad del código y la seguridad en tiempo de ejecución;
Rendimiento eficiente: admite modos de programación asíncrona, optimizando la capacidad de procesamiento concurrente; las funciones integradas de registro y monitoreo ayudan en el mantenimiento y la resolución de problemas.
Flujo de trabajo: cuando un usuario solicita acceder al sistema Rig, primero pasa por la "capa de abstracción de proveedores", que se encarga de estandarizar las diferencias entre los diferentes proveedores y garantizar la consistencia en el manejo de errores. A continuación, en la capa central, los agentes inteligentes pueden invocar diversas herramientas o consultar el almacenamiento de vectores para obtener la información necesaria. Finalmente, a través de mecanismos avanzados como la recuperación aumentada generativa (RAG), el sistema puede combinar la recuperación de documentos y la comprensión del contexto para generar respuestas precisas y significativas, que luego se devuelven al usuario.
Escenarios de aplicación: Rig no solo es adecuado para construir sistemas de respuesta a preguntas que requieren respuestas rápidas y precisas, sino que también se puede utilizar para crear herramientas de búsqueda de documentos eficientes, chatbots o asistentes virtuales con capacidad de percepción contextual, e incluso admite la creación de contenido, generando automáticamente texto u otras formas de contenido según los patrones de datos existentes.
1.4 ZerePy
ZerePy es un marco de código abierto basado en Python, diseñado para simplificar el proceso de despliegue y gestión de AI Agents en la plataforma X (anteriormente Twitter). Deriva del proyecto Zerebro, heredando sus funciones centrales, pero diseñado de una manera más modular y fácil de expandir. Su objetivo es permitir a los desarrolladores crear fácilmente AI Agents personalizados y realizar diversas tareas automatizadas y creación de contenido en X.
ZerePy proporciona una interfaz de línea de comandos (CLI) que permite a los usuarios gestionar y controlar sus AI Agents desplegados "1". Su arquitectura central se basa en un diseño modular, que permite a los desarrolladores integrar diferentes módulos de funcionalidad de manera flexible, como:
Integración de LLM: ZerePy admite modelos de lenguaje grandes (LLM) de OpenAI y Anthropic, permitiendo a los desarrolladores elegir el modelo que mejor se adapte a su escenario de aplicación. Esto permite que los Agentes generen contenido de texto de alta calidad;
Integración de la plataforma X: el marco integra directamente la API de la plataforma X, permitiendo que los Agentes realicen publicaciones, respuestas, me gusta, retweets, entre otras acciones;
Sistema de conexión modular: este sistema permite a los desarrolladores agregar fácilmente soporte para otras plataformas sociales o servicios, ampliando las funcionalidades del marco;
Sistema de memoria (planificación futura): aunque la versión actual puede no estar completamente implementada, el objetivo de diseño de ZerePy incluye la integración de un sistema de memoria, permitiendo que los Agentes recuerden interacciones pasadas y contextos, generando así contenido más coherente y personalizado.
Aunque tanto ZerePy como el proyecto Eliza de a16z están dedicados a construir y gestionar AI Agents, ambos tienen ligeras diferencias en su arquitectura y objetivos. Eliza se centra más en la simulación de múltiples agentes y una investigación de AI más amplia, mientras que ZerePy se enfoca en simplificar el proceso de despliegue de AI Agents en plataformas sociales específicas (X), inclinándose más hacia la simplificación en aplicaciones prácticas.
Dos, la réplica del ecosistema de BTC
De hecho, desde la perspectiva de la trayectoria de desarrollo, el AI Agent tiene muchas similitudes con el ecosistema de BTC a finales de 2023 y principios de 2024. La trayectoria de desarrollo del ecosistema de BTC se puede resumir de la siguiente manera: competencia entre múltiples protocolos como BRC20-Atomical/Rune-BTC L2-BTCFi centrado en Babylon. El AI Agent, sobre la base de una pila de tecnología AI tradicional madura, se desarrolla incluso más rápidamente, pero su trayectoria de desarrollo general comparte muchas similitudes con el ecosistema de BTC. Lo resumo de la siguiente manera: competencia entre el marco de agentes tipo GOAT/ACT-Social/Agentes de AI analíticos. Desde una perspectiva de tendencia, probablemente los proyectos de infraestructura centrados en la descentralización y la seguridad en torno a los Agentes también se beneficiarán de esta ola de marcos, convirtiéndose en la melodía principal de la próxima etapa.
Entonces, ¿este segmento seguirá un camino similar al ecosistema de BTC hacia la homogeneización y la burbuja? En realidad, creo que no. Primero, la narrativa del AI Agent no busca reproducir la historia de las cadenas de contratos inteligentes. En segundo lugar, los proyectos de marcos de AI existentes, ya sean realmente competentes o estancados en la fase de PPT o en ctrl c+ctrl v, al menos ofrecen una nueva forma de pensamiento para el desarrollo de infraestructura. Muchos artículos comparan los marcos de AI con plataformas de emisión de activos y los Agentes como activos. En realidad, en comparación con el lanzamiento de Memecoins y los protocolos de inscripciones, personalmente creo que los marcos de AI se asemejan más a las futuras cadenas públicas, y los Agentes se asemejan a los futuros Dapps.
En el Crypto actual, tenemos miles de cadenas públicas y decenas de miles de Dapps. En las cadenas generales, tenemos BTC, Ethereum y varias cadenas heterogéneas, mientras que las formas de las cadenas de aplicación son más diversas, como cadenas de juegos, cadenas de almacenamiento y cadenas Dex. Las cadenas públicas son muy similares a los marcos de AI, y los Dapps también pueden corresponder bien a los Agentes.
En la era de AI, Crypto probablemente avanzará hacia esta forma, y futuros debates se trasladarán de la discusión sobre EVM y cadenas heterogéneas a disputas sobre marcos. La pregunta ahora es más sobre cómo descentralizar o 'encadenar' esto. Creo que los próximos proyectos de infraestructura AI se desarrollarán sobre esta base, y otra cuestión es, ¿cuál es el significado de hacer esto en la cadena de bloques?
Tres, ¿cuál es el significado de la cadena de bloques?
La blockchain, sin importar con qué se combine, siempre se enfrenta a una pregunta: ¿es significativo? En un artículo del año pasado, critiqué la inversión errónea de GameFi; el desarrollo de la infraestructura era excesivamente prematuro. En los artículos anteriores sobre AI, también expresé que no tenía mucha fe en la combinación actual de AI x Crypto en campos prácticos. Después de todo, el impulso narrativo para proyectos tradicionales se ha debilitado cada vez más. Algunos de los pocos proyectos tradicionales que tuvieron un buen desempeño en el precio de las monedas el año pasado también deben tener la capacidad de igualar o superar el precio de las monedas. ¿Qué puede hacer AI por Crypto? Anteriormente, pensé en la idea de un Agente que actúe en nombre de otros, el Metaverso, y el Agente como empleado, que son ideas relativamente comunes pero necesarias. Sin embargo, ninguna de estas necesidades tiene la necesidad de estar completamente en la cadena. Desde la lógica comercial, tampoco puede cerrarse el ciclo. La intención del navegador de Agentes mencionado en la última edición puede derivar en la necesidad de etiquetado de datos, potencia de razonamiento, etc., pero la combinación de ambos sigue siendo insuficientemente estrecha, y la parte de potencia de cálculo sigue siendo dominada por la potencia centralizada en términos generales.
Repensar el camino hacia el éxito de DeFi. DeFi ha logrado captar una parte del pastel del financiamiento tradicional debido a su mayor accesibilidad, mejor eficiencia y menores costos, así como a su seguridad sin necesidad de un centro de confianza. Si pensamos en este sentido, creo que puede haber varias razones que apoyen la encadenación de Agentes.
1. ¿Puede la encadenación de Agentes lograr costos de uso más bajos, lo que a su vez permita una mayor accesibilidad y opciones? Haciendo que la "alquiler de derechos" de AI, que es exclusiva de las grandes empresas de Web2, también permita la participación de usuarios comunes;
2. Seguridad, de acuerdo con la definición más simple de un Agente, un AI que puede ser llamado Agente debería poder interactuar con el mundo virtual o real. Si un Agente puede intervenir en la realidad o en mi billetera virtual, entonces una solución de seguridad basada en blockchain también se considera una necesidad;
3. ¿Puede un Agente implementar un conjunto de jugadas financieras únicas para la cadena de bloques? Por ejemplo, en AMM con LP, permitir que personas comunes participen en la creación de mercado automático. O tal vez los Agentes basados en diferentes escenarios de aplicación puedan formar nuevas jugadas financieras;
4. DeFi actualmente no tiene una interoperabilidad perfecta. Si los Agentes basados en blockchain pueden lograr razonamientos transparentes y trazables, tal vez puedan ser más atractivos que los navegadores de agentes ofrecidos por gigantes de Internet tradicionales mencionados en el artículo anterior.
Cuatro, ¿creatividad?
Los proyectos de tipo marco también ofrecerán una oportunidad de emprendimiento similar a la tienda GPT en el futuro. Aunque actualmente es complejo para un usuario promedio publicar un Agente a través de un marco, creo que simplificar el proceso de construcción de Agentes y ofrecer combinaciones de funciones complejas permitirá que en el futuro predominan sobre la tienda GPT, creando una economía creativa de Web3 más interesante.
La tienda GPT actual sigue siendo más práctica en campos tradicionales, y la mayoría de las aplicaciones populares son creadas por empresas tradicionales de Web2, donde los ingresos son monopolizados por los creadores. Según la explicación oficial de OpenAI, esta estrategia solo ofrece apoyo financiero a algunos desarrolladores destacados en Estados Unidos, otorgando subsidios en cierta medida.
Desde la perspectiva de la demanda, Web3 aún presenta muchas áreas que necesitan ser cubiertas. En el sistema económico, también puede hacer que las políticas injustas de los gigantes de Web2 sean más justas. Además, también podemos introducir una economía comunitaria para mejorar aún más a los Agentes. La economía creativa de los Agentes será una oportunidad en la que las personas comunes también podrán participar, y los futuros Memes AI serán mucho más inteligentes e interesantes que los Agentes emitidos en GOAT y Clanker.
Artículos de referencia:
1. Evolución histórica y exploración de tendencias de marcos de AI
2. Bybit: AI Rig Complex (ARC): marco de AI Agentes
3. Memética de Valor Profundo: Comparación horizontal de cuatro marcos Crypto×AI: estado de adopción, ventajas y desventajas, potencial de crecimiento
4. Documentación oficial de Eliza
5. Documentación oficial de Virtual
Deconstrucción del marco de AI: de agentes inteligentes a exploraciones descentralizadas

Explora más de este creador

Lo más reciente