Autor: Investigador de YBB Capital Zeke
Prólogo
En artículos anteriores, hemos discutido en varias ocasiones nuestras opiniones sobre el estado actual de AI Meme y el desarrollo futuro de AI Agent. Sin embargo, la rapidez con la que avanza la narrativa del campo de los Agentes AI y su evolución es un poco abrumadora. En solo dos meses desde que se abrió el 'Terminal de Verdad' y comenzó el verano de los Agentes, la narrativa de la combinación de AI y Crypto ha cambiado casi semanalmente. Recientemente, la atención del mercado ha comenzado a enfocarse nuevamente en los proyectos de 'marco' dominados por la narrativa tecnológica; este segmento de mercado ha visto surgir varias 'caballos oscuros' con capitalizaciones de mercado de más de mil millones en las últimas semanas. Estos proyectos también han dado lugar a un nuevo paradigma de emisión de activos, donde los proyectos emiten tokens basados en repositorios de Github, y los Agentes construidos sobre marcos también pueden emitir tokens nuevamente. Con marcos como base y Agentes en la parte superior. Aparentemente, es una plataforma de emisión de activos, pero de hecho, está surgiendo un modelo de infraestructura que es exclusivo de la era de AI. ¿Cómo debemos examinar esta nueva tendencia? Este artículo comenzará con una breve introducción al marco y combinará pensamientos personales para interpretar qué significa realmente el marco AI para Crypto.
Primero, ¿qué es un marco?
Desde la definición, un marco AI es una herramienta o plataforma de desarrollo de nivel inferior que integra un conjunto de módulos, bibliotecas y herramientas preconstruidas, simplificando el proceso de construcción de modelos AI complejos. Estos marcos generalmente también incluyen funciones para manejar datos, entrenar modelos y realizar predicciones. En resumen, también se puede entender el marco como un sistema operativo de la era de AI, similar a los sistemas operativos de escritorio como Windows y Linux, o a los sistemas operativos móviles como iOS y Android. Cada marco tiene sus propias ventajas y desventajas, y los desarrolladores pueden elegir libremente según sus necesidades específicas.
Aunque el término 'marco AI' todavía es un concepto emergente en el campo del Crypto, desde su origen, con el nacimiento de Theano en 2010, la evolución de los marcos de AI ha estado cerca de los 14 años. Tanto en el ámbito académico como en la industria de AI tradicional, ya existen marcos muy maduros para elegir, como TensorFlow de Google, Pytorch de Meta, PaddlePaddle de Baidu, y MagicAnimate de ByteDance, cada uno con sus propias ventajas para diferentes escenarios.
Los proyectos de marco que actualmente surgen en Crypto se han creado en respuesta a la gran demanda de Agentes generada por esta ola de AI, y luego se han derivado hacia otros campos de Crypto, formando finalmente marcos de AI en diferentes segmentos. Tomemos algunos de los marcos más populares en el círculo actual como ejemplo para expandir esta frase.
1.1 Eliza
Tomemos como ejemplo el Eliza de ai16z, este marco es un marco de simulación de múltiples Agentes, diseñado específicamente para crear, desplegar y gestionar Agentes AI autónomos. Desarrollado en TypeScript como lenguaje de programación, su ventaja es una mejor compatibilidad y una integración más fácil de API.
Según la documentación oficial, Eliza se enfoca principalmente en redes sociales, como el soporte de integración de múltiples plataformas. Este marco ofrece integración completa con Discord y soporta canales de voz, cuentas automatizadas en X/Twitter, integración con Telegram y acceso directo a API. En cuanto al procesamiento de contenido multimedia, soporta la lectura y análisis de documentos PDF, extracción y resumen de contenido de enlaces, transcripción de audio, procesamiento de contenido de video, análisis y descripción de imágenes, y resumen de diálogos.
Los casos de uso que Eliza actualmente soporta son principalmente cuatro tipos:
Aplicaciones de asistencia AI: agentes de soporte al cliente, administradores de comunidades, asistentes personales;
Roles en redes sociales: creadores automáticos de contenido, robots interactivos, representantes de marcas;
Trabajadores del conocimiento: asistentes de investigación, analistas de contenido, procesadores de documentos;
Roles interactivos: personajes de juego de roles, tutores educativos, robots de entretenimiento.
Modelos actualmente soportados por Eliza:
Inferencia local de modelos de código abierto: como Llama3, Qwen1.5, BERT;
Uso de la API de OpenAI para inferencia en la nube;
Configuración predeterminada para Nous Hermes Llama 3.1B;
Integración con Claude para realizar consultas complejas.
1.2 G.A.M.E
G.A.M.E (Generative Autonomous Multimodal Entities Framework) es un marco de AI multimodal automático para generar y gestionar, lanzado por Virtual, cuyo objetivo principal es diseñar NPCs inteligentes en juegos. Este marco tiene una particularidad: los usuarios con conocimientos de bajo código o incluso sin código pueden utilizarlo, ya que, según su interfaz de prueba, los usuarios solo necesitan modificar parámetros para participar en el diseño de Agentes.
En la arquitectura del proyecto, el diseño central de G.A.M.E es un diseño modular en el que múltiples subsistemas trabajan en conjunto, la arquitectura detallada se muestra en la figura a continuación.
Interfaz de Prompt de Agente: la interfaz de interacción entre desarrolladores y el marco AI. A través de esta interfaz, los desarrolladores pueden inicializar una conversación y especificar parámetros como ID de sesión, ID de agente, ID de usuario;
Subsistema de Percepción: el subsistema de percepción se encarga de recibir información de entrada, sintetizarla y enviarla al motor de planificación estratégica. También maneja las respuestas del módulo de procesamiento de diálogos;
Motor de Planificación Estratégica: el motor de planificación estratégica es la parte central de todo el marco, dividido en planificador de alto nivel y política de bajo nivel. El planificador de alto nivel se encarga de establecer objetivos y planes a largo plazo, mientras que la política de bajo nivel convierte esos planes en pasos de acción concretos;
Contexto Mundial: el contexto mundial incluye datos sobre la información ambiental, el estado del mundo y el estado del juego, que se utilizan para ayudar al agente a comprender la situación actual;
Módulo de Procesamiento de Diálogos: el módulo de procesamiento de diálogos se encarga de manejar mensajes y respuestas, pudiendo generar diálogos o reacciones como salida;
Operador de Billetera en Cadena: el operador de billetera en cadena puede involucrar aplicaciones de tecnología blockchain, aunque sus funciones específicas no están claras;
Módulo de Aprendizaje: el módulo de aprendizaje aprende de la retroalimentación y actualiza la base de conocimientos del agente;
Memoria de Trabajo: la memoria de trabajo almacena las acciones recientes del agente, resultados y otra información de corto plazo relacionada con los planes actuales;
Procesador de Memoria a Largo Plazo: el procesador de memoria a largo plazo se encarga de extraer información importante sobre el agente y su memoria de trabajo, clasificándola en función de factores como la puntuación de importancia, la reciente y la relevancia;
Repositorio de Agentes: el repositorio de agentes almacena objetivos, reflexiones, experiencias y rasgos de personalidad del agente;
Planificador de Acciones: el planificador de acciones genera planes de acción específicos basados en la política de bajo nivel;
Ejecutor de Planes: el ejecutor de planes es responsable de llevar a cabo los planes de acción generados por el planificador de acciones.
Flujo de trabajo: el desarrollador inicia el Agente a través de la interfaz de prompt del Agente, el subsistema de percepción recibe la entrada y la transmite al motor de planificación estratégica. El motor de planificación estratégica utiliza el sistema de memoria, el contexto mundial y la información del repositorio de Agentes para formular y ejecutar un plan de acción. El módulo de aprendizaje monitorea continuamente los resultados de las acciones del Agente y ajusta su comportamiento según los resultados.
Casos de uso: desde la perspectiva de la arquitectura técnica completa, este marco se centra principalmente en las decisiones, retroalimentaciones, percepciones y personalidades de los Agentes en entornos virtuales, además de que se aplica no solo a juegos, sino también al Metaverso. En la lista de Virtual, se pueden ver muchos proyectos que ya han utilizado este marco para construir.
1.3 Rig
Rig es una herramienta de código abierto escrita en Rust, diseñada para simplificar el desarrollo de aplicaciones de modelos de lenguaje grandes (LLM). Proporciona una interfaz de operación unificada que permite a los desarrolladores interactuar fácilmente con múltiples proveedores de servicios de LLM (como OpenAI y Anthropic) y varias bases de datos vectoriales (como MongoDB y Neo4j).
Características clave:
Interfaz unificada: independientemente del proveedor de LLM o del tipo de almacenamiento vectorial, Rig puede proporcionar un método de acceso consistente, reduciendo significativamente la complejidad del trabajo de integración;
Arquitectura modular: el marco utiliza un diseño modular que incluye 'capa de abstracción del proveedor', 'interfaz de almacenamiento vectorial' y 'sistema de agentes inteligentes', asegurando la flexibilidad y escalabilidad del sistema;
Seguridad de tipo: se implementa la seguridad de tipo mediante las características de Rust, garantizando la calidad del código y la seguridad en tiempo de ejecución;
Rendimiento eficiente: soporta un modo de programación asíncrona, optimizando la capacidad de procesamiento concurrente; las funciones integradas de registro y monitoreo ayudan en el mantenimiento y la solución de problemas.
Flujo de trabajo: cuando un usuario solicita ingresar al sistema Rig, primero pasará por la 'capa de abstracción del proveedor', que se encarga de estandarizar las diferencias entre diferentes proveedores y asegurar la consistencia del manejo de errores. A continuación, en la capa central, el agente inteligente puede invocar varias herramientas o consultar almacenamiento vectorial para obtener la información necesaria. Finalmente, a través de mecanismos avanzados como la generación aumentada de recuperación (RAG), el sistema puede combinar la recuperación de documentos y la comprensión contextual para generar respuestas precisas y significativas, que luego se devuelven al usuario.
Casos de uso: Rig no solo es adecuado para construir sistemas de respuesta rápida y precisa, sino que también puede ser utilizado para crear herramientas de búsqueda de documentos eficientes, chatbots o asistentes virtuales con capacidad de percepción contextual, e incluso soportar la creación de contenido, generando automáticamente texto u otras formas de contenido basándose en patrones de datos existentes.
1.4 ZerePy
ZerePy es un marco de código abierto basado en Python, diseñado para simplificar el despliegue y la gestión de Agentes AI en la plataforma X (anteriormente Twitter). Se deriva del proyecto Zerebro, heredando sus funciones centrales pero diseñado de manera más modular y fácil de expandir. Su objetivo es permitir que los desarrolladores creen Agentes AI personalizados con facilidad y realicen diversas tareas automatizadas y creación de contenido en X.
ZerePy proporciona una interfaz de línea de comandos (CLI) que permite a los usuarios gestionar y controlar sus Agentes AI desplegados. Su arquitectura central se basa en un diseño modular, permitiendo a los desarrolladores integrar flexiblemente diferentes módulos funcionales, por ejemplo:
Integración de LLM: ZerePy soporta grandes modelos de lenguaje (LLMs) de OpenAI y Anthropic, permitiendo a los desarrolladores elegir el modelo más adecuado para su escenario de aplicación. Esto permite que los Agentes generen contenido textual de alta calidad;
Integración de la plataforma X: el marco se integra directamente con la API de la plataforma X, permitiendo a los Agentes publicar, responder, dar me gusta, retuitear y realizar otras operaciones;
Sistema de conexión modular: este sistema permite a los desarrolladores añadir fácilmente soporte para otras plataformas sociales o servicios, ampliando las capacidades del marco;
Sistema de memoria (planificación futura): aunque la versión actual puede no haberse implementado por completo, el objetivo del diseño de ZerePy incluye la integración de un sistema de memoria, permitiendo que los Agentes recuerden interacciones anteriores y información contextual para generar contenido más coherente y personalizado.
Aunque ZerePy y el proyecto Eliza de a16z están comprometidos en construir y gestionar Agentes AI, ambos tienen diferencias en su arquitectura y objetivos. Eliza se centra más en la simulación de múltiples agentes y en la investigación más amplia de AI, mientras que ZerePy se enfoca en simplificar el proceso de despliegue de Agentes AI en plataformas sociales específicas (X), inclinándose más hacia la simplificación en aplicaciones prácticas.
Reproducción del ecosistema BTC
En realidad, desde la perspectiva del camino de desarrollo, los Agentes AI tienen muchas similitudes con el ecosistema BTC a finales de 2023 y principios de 2024. La trayectoria de desarrollo del ecosistema BTC se puede resumir como: competencia de múltiples protocolos BRC20-Atomical/Rune-BTC L2-BTCFi centrado en Babylon. Mientras que los Agentes AI, sobre la base de una pila de tecnología AI tradicional madura, se desarrollan más rápidamente, su trayectoria de desarrollo total tiene muchas similitudes con el ecosistema BTC, que resumo de la siguiente manera: competencia entre marcos de Agentes de tipo GOAT/ACT-Social/Agentes AI analíticos. Desde una perspectiva de tendencia, los proyectos de infraestructura que se centran en la descentralización y la seguridad de los Agentes probablemente también heredarán este entusiasmo por los marcos, convirtiéndose en la melodía principal de la próxima etapa.
Entonces, ¿este camino seguirá el mismo camino hacia la homogeneización y burbujización que el ecosistema BTC? Creo que no, primero porque la narrativa de los Agentes AI no es para reproducir la historia de la cadena de contratos inteligentes, y segundo, los proyectos de marco AI existentes, ya sea que realmente tengan capacidad o estén estancados en la etapa de PPT o ctrl c + ctrl v, al menos presentan una nueva forma de desarrollo de infraestructura. Muchos artículos comparan los marcos de AI con plataformas de emisión de activos, y los Agentes con activos; en realidad, en comparación con el Launchpad de Memecoin y los protocolos de inscripción, personalmente creo que los marcos de AI se parecen más a las futuras cadenas públicas, y los Agentes más a los futuros Dapps.
En el Crypto actual, tenemos miles de cadenas públicas y decenas de miles de Dapps. En las cadenas generales tenemos BTC, Ethereum y varias cadenas heterogéneas, mientras que las formas de cadenas de aplicaciones son más diversas, como cadenas de juegos, cadenas de almacenamiento y cadenas Dex. Las cadenas públicas y el marco AI son muy similares, y los Dapps pueden corresponder bien a los Agentes.
En la era de AI, es muy probable que Crypto avance hacia esta forma, y el debate futuro pasará de la discusión sobre EVM y cadenas heterogéneas a la competencia entre marcos. Ahora, la pregunta es más sobre cómo descentralizar o, en otras palabras, ¿cómo hacer que sea más 'en cadena'? Creo que los proyectos de infraestructura de AI que seguirán se basarán en esto, y otra cosa es, ¿cuál es el significado de hacer esto sobre la blockchain?
¿Cuál es el significado de estar en la cadena?
La blockchain, independientemente de con qué se combine, siempre se enfrentará a una pregunta: ¿es significativo? En un artículo del año pasado, critiqué la inversión equivocada en GameFi, la transición prematura en el desarrollo de Infra, y en los primeros artículos sobre AI, también expresé que no soy optimista sobre la combinación de AI x Crypto en el campo práctico en esta etapa. Después de todo, la fuerza impulsora de la narrativa se ha vuelto cada vez más débil para los proyectos tradicionales; los pocos proyectos tradicionales que tuvieron un buen rendimiento el año pasado también deben tener la capacidad de igualar o superar el precio de sus tokens. ¿Qué utilidad tiene AI para Crypto? Anteriormente pensé en la idea de que los Agentes operan en lugar de los usuarios, como empleados en el Metaverso, ideas relativamente simples pero que tienen demanda. Sin embargo, no todas estas necesidades requieren estar completamente en la cadena, y desde el punto de vista de la lógica comercial, no pueden cerrarse. La idea de que un navegador de Agentes realice intenciones puede generar necesidades como etiquetado de datos y potencia de inferencia, pero la combinación de ambas todavía no es lo suficientemente estrecha y en términos de potencia de cálculo, la potencia centralizada sigue siendo dominante.
Reconsiderando el camino al éxito de DeFi, la razón por la cual DeFi pudo obtener una parte del pastel del financiamiento tradicional es porque ofrece mayor accesibilidad, mejor eficiencia y menores costos, además de no requerir confianza en la seguridad descentralizada. Siguiendo este pensamiento, creo que puede haber varias razones que apoyen la cadena de Agentes.
1. ¿Puede la cadena de Agentes lograr costos de uso más bajos, alcanzando así mayor accesibilidad y opciones? Finalmente, permitiendo que el 'derecho de alquiler' de AI, que pertenece a las grandes empresas de Web2, también permita la participación de usuarios comunes;
2.Seguridad, según la definición más simple de Agente, un AI que puede ser llamado Agente debe ser capaz de interactuar con el mundo virtual o real. Si un Agente puede intervenir en la realidad o en mi billetera virtual, entonces una solución de seguridad basada en blockchain también se considera una necesidad básica;
3. ¿Puede un Agente implementar un juego financiero exclusivo de la blockchain? Por ejemplo, LP en AMM, permitiendo que las personas comunes participen en el mercado de manera automática, como los Agentes que requieren potencia de cálculo, etiquetado de datos, etc., mientras que los usuarios invierten en el protocolo en forma de U. O tal vez, los Agentes basados en diferentes escenarios de aplicación pueden formar nuevas jugadas financieras.
4.DeFi actualmente no tiene interoperabilidad perfecta; combinar agentes basados en blockchain que puedan lograr inferencias transparentes y rastreables podría ser más atractivo que los navegadores de agentes proporcionados por gigantes de Internet tradicionales mencionados en el artículo anterior.
Cuarto, ¿creatividad?
Los proyectos de tipo marco también ofrecerán oportunidades de emprendimiento similares a GPT Store en el futuro. Aunque actualmente publicar un Agente a través de un marco es complicado para los usuarios comunes, creo que simplificar el proceso de construcción del Agente y ofrecer combinaciones de funciones complejas, dominará en el futuro, formando así una economía creativa de Web3 más interesante que la de GPT Store.
El actual GPT Store aún se inclina hacia la utilidad en campos tradicionales y la mayoría de las aplicaciones populares son creadas por empresas tradicionales de Web2, mientras que los ingresos son monopolizados por los creadores. Según la explicación oficial de OpenAI, esta estrategia solo ofrece apoyo financiero a algunos desarrolladores destacados en Estados Unidos, otorgando un subsidio de cierta cantidad.
Desde la perspectiva de la demanda, Web3 aún tiene muchas áreas que necesitan ser desarrolladas, y en términos de sistema económico, también puede hacer que las políticas injustas de los gigantes de Web2 sean más equitativas. Además, podemos introducir una economía comunitaria para hacer que los Agentes sean más completos. La economía creativa de los Agentes será una oportunidad en la que las personas comunes también podrán participar, y el futuro AI Meme será mucho más inteligente y divertido que los Agentes lanzados en GOAT y Clanker.
Artículos de referencia:
1.Evolución histórica y exploración de tendencias de marcos AI
2.Bybit: AI Rig Complex (ARC): marco de Agente AI
3.Deep Value Memetics: Comparación horizontal de cuatro marcos Crypto×AI: condiciones de adopción, ventajas y desventajas, potencial de crecimiento
4.Documentación oficial de Eliza
5.Documentación oficial de Virtual