Título original: Deconstructing AI Frameworks: From Intelligent Agents to Decentralization Exploration

Autor original: Zeke, YBB

Fuente original: https://cointelegraph.com/news/bitcoin-92-k-correction-triggered-long-term-hodlers-etfs

Compilado por: Tom, Mars Finance

Introducción

En artículos anteriores, hemos expuesto repetidamente nuestras opiniones sobre el estado actual de los Memes de IA y el desarrollo futuro de los Agentes de IA. Sin embargo, el desarrollo narrativo y la velocidad de iteración del sector de los Agentes de IA siguen siendo bastante sorprendentes. Desde el lanzamiento de 'Truth Terminal', que dio paso al verano de los Agentes, hasta ahora, solo han pasado un par de meses, y la narrativa sobre la combinación de IA y criptomonedas ha evolucionado casi semanalmente. Recientemente, la atención del mercado ha comenzado a centrarse en los proyectos de tipo 'Framework', que son impulsados principalmente por la narrativa técnica. En este nicho relativamente pequeño, ya han surgido varias startups con una valoración superior a mil millones de dólares en las últimas semanas, impulsando un nuevo paradigma de emisión de activos: los proyectos emiten tokens en función de su repositorio de código en GitHub, y los Agentes construidos sobre estos marcos también pueden emitir tokens. El marco se convierte en el núcleo, y los Agentes son aplicaciones de nivel superior, similares a una plataforma de emisión de activos, pero esencialmente es un nuevo modelo de infraestructura que ha surgido en la era de la IA. ¿Cómo deberíamos percibir esta nueva tendencia? Este artículo abordará lo que significa el marco de IA para la industria de criptomonedas desde la perspectiva del marco.

¿Qué es un marco (Framework)?

Desde la definición, un marco de IA es una herramienta o plataforma de desarrollo de bajo nivel, que integra una serie de módulos, bibliotecas y herramientas preconstruidas para simplificar el proceso de construcción de modelos de IA complejos. Generalmente incluye funciones de procesamiento de datos, entrenamiento de modelos, inferencia y predicción. En términos simples, se puede considerar como el sistema operativo de la era de la IA, similar a Windows o Linux en el escritorio, o iOS o Android en dispositivos móviles. Cada marco tiene sus propias ventajas y desventajas, y los desarrolladores elegirán según sus necesidades.

Aunque el 'marco de IA' aún es un concepto relativamente nuevo en el círculo cripto, su desarrollo en la comunidad de IA tradicional se remonta a Theano en 2010, con casi 14 años de historia. TensorFlow de Google, PyTorch de Meta, PaddlePaddle de Baidu y MagicAnimate de ByteDance son marcos maduros ampliamente utilizados en la academia y la industria, cada uno con ventajas en diferentes escenarios.

Los proyectos de marcos de IA que están surgiendo actualmente en el espacio cripto se basan en la demanda de numerosos Agentes bajo la ola de IA, y se diversifican aún más en otras pistas dentro del cripto, formando finalmente marcos de IA específicos para subcampos. Primero, echemos un vistazo a algunos de los marcos más destacados en la industria para ilustrar mejor esto.

1.1 Eliza

Primero está Eliza, lanzada por ai16z, un marco de simulación de múltiples Agentes, diseñado para crear, desplegar y gestionar Agentes de IA autónomos. Su principal lenguaje de programación es TypeScript, lo que ofrece la ventaja de una buena compatibilidad y menor dificultad de integración de API. Según la documentación oficial, Eliza se centra más en escenarios de redes sociales, ofreciendo soporte para múltiples plataformas. Tiene funciones de integración completas con Discord (incluidos los canales de voz), y también puede conectarse a X/Twitter y Telegram, permitiendo llamadas API directas. En cuanto al procesamiento multimedia, puede leer y analizar documentos PDF, extraer y resumir enlaces, realizar transcripciones de audio, procesamiento de contenido de video, análisis de imágenes y resúmenes de diálogos.

Eliza actualmente admite cuatro tipos de escenarios de aplicación:

  1. Aplicaciones de asistentes de IA: Agentes de soporte al cliente, administradores de comunidades, asistentes personales;

  2. Roles en redes sociales: creadores de contenido automatizados, robots interactivos, embajadores de marca;

  3. Trabajos basados en conocimiento: asistentes de investigación, análisis de contenido, procesamiento de documentos;

  4. Roles interactivos: juegos de rol, mentores educativos, robots de entretenimiento.

Los modelos actualmente disponibles incluyen:

  • Modelos de inferencia locales de código abierto: como Llama3, Qwen1.5, BERT;

  • Inferencia en la nube a través de OpenAI API;

  • Configuración predeterminada: Nous Hermes Llama 3.1B;

  • Integración con Claude para procesar consultas complejas.

1.2 G.A.M.E

G.A.M.E (Generative Autonomous Multimodal Entities Framework) es un marco de IA multimodal lanzado por Virtual, que se centra en el diseño de NPC inteligentes en juegos. Su característica es que los usuarios con bajo o incluso sin código pueden modificar parámetros para diseñar Agentes a través de una interfaz visual de prueba.

En términos de arquitectura del proyecto, G.A.M.E adoptó un diseño modular que permite que múltiples subsistemas trabajen juntos. Su estructura detallada es la siguiente:

  1. Interfaz de Sugerencias de Agentes (Agent Prompting Interface): interfaz de interacción del desarrollador, a través de la cual se pueden inicializar sesiones y especificar ID de sesión, ID de Agente, ID de usuario, etc.;

  2. Subsistema de percepción (Perception Subsystem): recibe información de entrada y la envía al motor de planificación estratégica, mientras procesa la respuesta del módulo de diálogo;

  3. Motor de planificación estratégica (Strategic Planning Engine): núcleo del marco, compuesto por un planificador de alto nivel (High-Level Planner) y una política de bajo nivel (Low-Level Policy). El planificador de alto nivel es responsable de establecer objetivos a largo plazo, mientras que la política de bajo nivel convierte la planificación en acciones concretas;

  4. Contexto mundial (World Context): guarda información del entorno, estado del mundo y estado del juego, ayudando al Agente a comprender el contexto;

  5. Módulo de procesamiento de diálogos (Dialogue Processing Module): responsable de manejar mensajes y respuestas, produciendo resultados de diálogo o respuesta;

  6. Operador de billetera en cadena (On-Chain Wallet Operator): aplicación relacionada con blockchain, pero la función específica aún no está clara;

  7. Módulo de aprendizaje (Learning Module): aprende y actualiza la base de conocimientos del Agente según los comentarios;

  8. Memoria de trabajo (Working Memory): almacena información a corto plazo sobre acciones recientes, resultados y planificación actual;

  9. Procesador de memoria a largo plazo (Long-Term Memory Processor): extrae y ordena información clave y memoria de trabajo del Agente según indicadores de importancia, novedad, relevancia, etc.;

  10. Repositorio de Agentes (Agent Repository): guarda los objetivos, pensamientos, experiencias y atributos del Agente;

  11. Planificador de acciones (Action Planner): genera planes de acción concretos basados en políticas de bajo nivel;

  12. Ejecutor de planes (Plan Executor): ejecuta los planes generados por el planificador de acciones.

Flujo de trabajo: los desarrolladores crean Agentes a través de la Interfaz de Sugerencias de Agentes, el subsistema de percepción entrega la entrada al motor de planificación estratégica, que, combinando el sistema de memoria, el contexto mundial y el repositorio de Agentes, planifica y ejecuta, mientras que el módulo de aprendizaje monitorea el comportamiento del Agente y ajusta en tiempo real.

Escenarios de aplicación: este marco se centra principalmente en aspectos de toma de decisiones, retroalimentación, percepción e individualidad de los Agentes en entornos virtuales. Además de los juegos, también se puede aplicar en el ámbito del metaverso. La fuente oficial ha revelado que ya hay varios proyectos construidos sobre este marco.

1.3 Rig

Rig es una herramienta de código abierto escrita en Rust, diseñada para simplificar el desarrollo de aplicaciones de modelos de lenguaje grande (LLM), proporcionando una interfaz unificada que permite a los desarrolladores interactuar de manera conveniente con múltiples proveedores de servicios de LLM (como OpenAI, Anthropic) y varias bases de datos de vectores (MongoDB, Neo4j).

Características clave:

  1. Interfaz unificada: independientemente del proveedor de LLM o el almacenamiento de vectores que se utilice, Rig proporciona una forma de acceso consistente, reduciendo significativamente la dificultad de integración;

  2. Arquitectura modular: incluye componentes clave como 'capa de abstracción del proveedor de servicios', 'interfaz de almacenamiento de vectores' y 'sistema de Agentes inteligentes', con flexibilidad y escalabilidad;

  3. Seguridad de tipos: basado en las características de Rust para realizar verificaciones de seguridad de tipos en operaciones de incrustación, garantizando la calidad del código y la seguridad en tiempo de ejecución;

  4. Alto rendimiento: el marco admite programación asíncrona, con registro y monitoreo integrados, facilitando la operación y la resolución de problemas.

Flujo de trabajo: la solicitud del usuario primero ingresa a la 'capa de abstracción del proveedor de servicios', unificando las diferencias entre diferentes proveedores y manejando los errores de manera unificada. En la capa central, el Agente inteligente puede invocar diversas herramientas o consultar información en el almacenamiento de vectores, y finalmente emplear mecanismos como la Generación Aumentada por Recuperación (RAG) para combinar la búsqueda de documentos y la comprensión del contexto, generando respuestas precisas para devolver al usuario.

Escenarios de aplicación: adecuado para construir sistemas de preguntas y respuestas rápidos y precisos, desarrollar herramientas de búsqueda de documentos eficientes, crear chatbots o asistentes virtuales con percepción contextual, e incluso generar automáticamente texto u otro contenido basado en patrones de datos conocidos.

1.4 ZerePy

ZerePy es un marco de código abierto basado en Python, diseñado para simplificar el despliegue y la gestión de Agentes de IA en la plataforma X (anteriormente Twitter). Su predecesor fue el proyecto Zerebro, que mantuvo las funciones clave, pero fue diseñado de manera más modular y escalable, permitiendo a los desarrolladores crear fácilmente Agentes de IA personalizados y realizar tareas automatizadas y creación de contenido.

ZerePy proporciona una interfaz de línea de comandos (CLI) para facilitar la gestión y control de los Agentes de IA desplegados. Su núcleo utiliza un diseño modular, con ejemplos de módulos funcionales integrables:

  • Integración de LLM: ZerePy admite múltiples modelos como OpenAI, Anthropic, permitiendo que el Agente genere texto de alta calidad;

  • Integración de la plataforma X: conexión directa con la API de X, admitiendo publicaciones, respuestas, me gusta, retweets, y más;

  • Sistema de conexión modular (Modular Connection System): permite a los desarrolladores agregar fácilmente soporte para otras plataformas sociales o servicios;

  • Sistema de memoria (planificación futura): la versión actual aún no se ha implementado completamente, pero el objetivo es que el Agente recuerde conversaciones y contextos pasados para generar contenido más coherente y personalizado.

En general, ZerePy y Eliza de a16z se dedican a construir y gestionar Agentes de IA, pero cada uno tiene un enfoque diferente. Eliza se centra más en la simulación de múltiples Agentes y la investigación amplia de IA, mientras que ZerePy se enfoca en el despliegue de aplicaciones en plataformas sociales específicas (X), con un enfoque más orientado a la implementación.

¿Una 'réplica' del ecosistema BTC?

Si observamos el camino del desarrollo, los Agentes de IA son bastante similares al ecosistema de BTC a finales de 2023 y principios de 2024. La breve trayectoria del ecosistema de BTC es: competencia de múltiples protocolos como BRC20-Atomical/Rune — BTC L2 — BTCFi en torno a Babilonia. Aunque los Agentes de IA están basados en un stack de tecnología de IA más maduro, la trayectoria de desarrollo general también refleja cierta similitud: GOAT/ACT — Agentes sociales — Competencia de marcos de Agentes de IA analíticos. Desde una perspectiva de tendencia, los proyectos de infraestructura relacionados con la descentralización y la seguridad de los Agentes pueden continuar esta ola de 'marcos', convirtiéndose en un enfoque clave en la próxima etapa.

Entonces, ¿se convertirá este campo en algo como el ecosistema BTC, cayendo finalmente en la homogeneización y la burbuja? Creo que no. Primero, la narrativa de los Agentes de IA no se basa en recorrer de nuevo el viejo camino de las cadenas de contratos inteligentes; en segundo lugar, ya sea que los proyectos existentes de marcos de IA tengan sustancia técnica, estén en la fase de PPT, o simplemente sean Copia y Pega, han presentado nuevas ideas de infraestructura. Muchos artículos comparan los marcos de IA con plataformas de emisión de activos, y los Agentes como 'activos'. Pero personalmente, prefiero pensar que los marcos de IA corresponden al 'layer 1' del futuro, mientras que los Agentes corresponden a las futuras DApps.

En el mundo cripto de hoy, tenemos miles de cadenas públicas y decenas de miles de DApps; en cuanto a cadenas generales, hay BTC, Ethereum y varias cadenas heterogéneas, siendo las formas de cadenas de aplicación aún más ricas, como cadenas de juegos, cadenas de almacenamiento, cadenas Dex, etc. Las cadenas públicas y los marcos de IA son esencialmente similares, y el papel de los DApps corresponde altamente al de los Agentes.

Por lo tanto, en la era de 'Crypto en IA', el ecosistema probablemente evolucionará hacia esta forma, y el enfoque de debate en el futuro podría cambiar de la disputa entre EVM y cadenas heterogéneas hacia la discusión sobre la ruta de 'Framework'. La pregunta más crítica en este momento es cómo llevar a cabo la descentralización o la 'cadena'. Creo que los futuros proyectos de infraestructura de IA evolucionarán en torno a esta base. Otra pregunta importante es: ¿cuál es el verdadero significado de trasladar todo esto a la cadena de bloques?

¿Cuál es el significado de la integración en la cadena?

Independientemente de cómo se combine la cadena de bloques, siempre enfrentará la pregunta de '¿tiene algún significado práctico?'. El año pasado, critiqué que GameFi se 'desvió' en el progreso de la infraestructura. En artículos anteriores sobre IA, también expresé dudas sobre el valor actual de 'IA + Crypto'. Después de todo, la disminución del impulso narrativo tradicional es una tendencia inevitable, y los proyectos con un rendimiento de precios aceptable el año pasado a menudo pueden 'soportar' o superar el mercado.

¿Cómo puede ayudar la IA a Crypto? Anteriormente, solo había pensado en escenarios relativamente convencionales, pero ciertamente con cierta demanda, donde los Agentes de IA reemplazan a los usuarios para realizar tareas, en el metaverso, y hacen de “empleados”. Sin embargo, estas demandas no necesariamente tienen que estar completamente en la cadena, y es difícil formar un ciclo cerrado en términos de lógica comercial. Aunque el navegador de Agentes mencionado en el artículo anterior puede generar etiquetas de datos y necesidades de poder computacional a través de intenciones, estos dos puntos no están estrechamente integrados con la cadena de bloques, y el poder computacional sigue siendo dominado por la centralización.

Al revisar el éxito de DeFi, su capacidad para establecerse en las finanzas tradicionales se debe a su mayor accesibilidad, mejor eficiencia, menores costos y seguridad sin confianza. Si aplicamos este marco, conjeturo que la integración de Agentes en la cadena puede tener sentido en los siguientes aspectos:

  1. Reducción de costos: ¿puede la integración de Agentes en la cadena reducir los costos de uso, logrando así mayor accesibilidad y una mayor variedad de opciones? Esto podría permitir que las personas comunes también disfruten de servicios de 'alquiler' de IA que antes solo estaban disponibles para los gigantes de IA de Web2.

  2. Seguridad: desde la definición más simple, un Agente es una IA que puede interactuar con el mundo real o virtual. Si puede manipular mi billetera virtual, entonces quizás una solución de seguridad de cadena de bloques descentralizada sea imprescindible.

  3. Jugadas financieras exclusivas de blockchain: ¿puede un Agente formar un mecanismo financiero único en la cadena? Por ejemplo, en un modelo AMM, los LP (proveedores de liquidez) permiten que las personas comunes participen en la creación de mercado automática; si un Agente necesita poder computacional o etiquetado de datos, los usuarios pueden usar USDT para invertir en estos protocolos y obtener beneficios basados en la confianza en el sistema. Quizás los Agentes para diferentes escenarios generen diversas estructuras financieras.

  4. Interoperabilidad de DeFi: la interoperabilidad de DeFi aún no es perfecta; los Agentes podrían ser capaces de conectar y llenar los vacíos actuales a través de procesos de razonamiento transparentes y trazables.

¿Cuarta, creatividad?

Los proyectos de marcos futuros también ofrecerán oportunidades de emprendimiento similares a las de 'GPT Store'. Para los usuarios comunes, iniciar un Agente a través del marco sigue siendo relativamente complejo. Sin embargo, si se puede simplificar aún más el proceso de construcción y combinar más funciones complejas, estos marcos tendrán una ventaja competitiva considerable y también pueden facilitar una economía de creadores en Web3 más interesante, superando con creces la experiencia de GPT Store.

La actual GPT Store sigue siendo más una aplicación tradicional, ya que la mayoría de las aplicaciones exitosas son producidas por empresas de Web2, y los ingresos a menudo son 'monopolizados' por los creadores. Según la explicación oficial de OpenAI, solo brindan apoyo financiero a desarrolladores destacados dentro de los Estados Unidos, y el monto es limitado.

Desde la perspectiva de la demanda, Web3 sigue teniendo enormes vacíos, y en términos de sistema económico, puede hacer que las políticas dominadas por los gigantes de Web2 sean más justas. Al mismo tiempo, podemos introducir naturalmente una economía comunitaria para mejorar aún más a los Agentes. La economía de creadores en torno a los Agentes proporcionará más oportunidades de participación para las personas comunes. En ese momento, los Memes de IA serán mucho más 'inteligentes' y 'divertidos' que los Agentes actuales como GOAT o Clanker.