Autor original: YBB Capital Researcher Zeke

Introducción

En artículos anteriores, ya hemos discutido varias veces nuestras opiniones sobre el estado actual de los Memes de IA y el futuro desarrollo de los Agentes de IA. Sin embargo, la rápida evolución de la narrativa en el campo de los Agentes de IA es un poco abrumadora. Desde que el 'terminal de la verdad' dio inicio al verano de los Agentes, en solo dos meses, la narrativa sobre la combinación de IA y Crypto ha cambiado casi semanalmente. Recientemente, la atención del mercado ha comenzado a centrarse nuevamente en los proyectos 'de marco' dominados por la narrativa técnica; esta subcategoría ha presentado varias sorpresas, con múltiples proyectos alcanzando capitalizaciones de mercado de cientos de millones e incluso miles de millones en solo unas pocas semanas. Además, estos proyectos han generado un nuevo paradigma de emisión de activos, donde los proyectos emiten tokens basados en repositorios de código en GitHub, y los Agentes construidos sobre estos marcos también pueden emitir tokens nuevamente. Con un marco como base y Agentes como la parte superior, se asemeja a una plataforma de emisión de activos, pero en realidad está emergiendo un modelo de infraestructura exclusivo de la era de IA. ¿Cómo debemos evaluar esta nueva tendencia? Este artículo comenzará con una breve introducción a los marcos y combinará reflexiones personales para interpretar lo que realmente significa el marco de IA para Crypto.

一、何谓框架?

Por definición, un marco de IA es una herramienta o plataforma de desarrollo de bajo nivel que integra un conjunto de módulos, bibliotecas y herramientas preconstruidas, simplificando el proceso de construcción de modelos complejos de IA. Estos marcos suelen incluir funciones para procesar datos, entrenar modelos y realizar predicciones. En resumen, se puede entender el marco simplemente como un sistema operativo en la era de IA, similar a Windows o Linux en sistemas operativos de escritorio, o iOS y Android en dispositivos móviles. Cada marco tiene sus propias ventajas y desventajas, permitiendo a los desarrolladores elegir libremente según sus necesidades específicas.

Aunque el término 'marco de IA' sigue siendo un concepto emergente en el campo de Crypto, su origen se remonta a 2010 con el nacimiento de Theano; el desarrollo de los marcos de IA ha estado en curso durante casi 14 años. En el ámbito de la IA tradicional, tanto en el académico como en la industria, ya hay marcos muy maduros disponibles, como TensorFlow de Google, Pytorch de Meta, Paddle de Baidu y MagicAnimate de Byte, cada uno con sus propias ventajas según el escenario.

Los proyectos de marco emergentes en Crypto se han creado en respuesta a la demanda masiva de Agentes impulsada por la reciente ola de entusiasmo por la IA, y luego se han diversificado hacia otros ámbitos de Crypto, formando finalmente marcos de IA en diferentes subcampos. Tomaremos como ejemplo algunos de los marcos principales en el sector actual para expandir esta afirmación.

1.1 Eliza

Tomemos como ejemplo a Eliza de ai16z, este marco es un marco de simulación de múltiples Agentes, diseñado específicamente para crear, implementar y gestionar Agentes de IA autónomos. Desarrollado en TypeScript como lenguaje de programación, su ventaja es una mejor compatibilidad y una integración más sencilla de API.

Según la documentación oficial, Eliza se dirige principalmente a escenarios de redes sociales, como el soporte de integración en múltiples plataformas; este marco ofrece una integración completa con Discord, soportando canales de voz, cuentas automatizadas en X/Twitter, integración con Telegram y acceso directo a API. En cuanto al manejo de contenido mediático, admite lectura y análisis de documentos PDF, extracción y resumen de contenido de enlaces, transcripción de audio, procesamiento de contenido de video, análisis y descripción de imágenes, y resumen de diálogos.

Los casos de uso actualmente soportados por Eliza son principalmente cuatro categorías:

  • Aplicaciones de asistentes de IA: agentes de soporte al cliente, administradores de comunidades, asistentes personales;

  • Roles en redes sociales: creadores automáticos de contenido, robots interactivos, representantes de marca;

  • Trabajadores del conocimiento: asistentes de investigación, analistas de contenido, procesadores de documentos;

  • Roles interactivos: personajes de juego de rol, tutores educativos, robots de entretenimiento.

Modelos actualmente soportados por Eliza:

  • Inferencia local de modelos de código abierto: por ejemplo, Llama 3, Qwen 1.5, BERT;

  • Uso de la API de OpenAI basada en la inferencia en la nube;

  • La configuración predeterminada es Nous Hermes Llama 3.1 B;

  • Integración con Claude para consultas complejas.

1.2 G.A.M.E

G.A.M.E (Generative Autonomous Multimodal Entities Framework) es un marco multimodal de IA para generación y gestión automática lanzado por Virtual, dirigido principalmente al diseño de NPC inteligentes en juegos; este marco tiene la particularidad de que incluso los usuarios sin experiencia en programación o con conocimientos limitados pueden utilizarlo, ya que, según su interfaz de prueba, los usuarios solo necesitan modificar parámetros para participar en el diseño de Agentes.

En la arquitectura del proyecto, el diseño central de G.A.M.E es un diseño modular que permite el trabajo conjunto de múltiples subsistemas, la arquitectura detallada se muestra en la siguiente imagen.

  • Interfaz de Indicación del Agente: interfaz a través de la cual los desarrolladores interactúan con el marco de IA. A través de esta interfaz, los desarrolladores pueden iniciar una sesión y especificar parámetros como ID de sesión, ID de Agente, ID de usuario, etc.;

  • Subsistema de Percepción: el subsistema de percepción es responsable de recibir información de entrada, sintetizarla y enviarla al motor de planificación estratégica. También maneja las respuestas del módulo de procesamiento de diálogos;

  • Motor de Planificación Estratégica: El motor de planificación estratégica es la parte central de todo el marco, dividido en planificadores de alto nivel y políticas de bajo nivel. El planificador de alto nivel se encarga de establecer metas y planes a largo plazo, mientras que las políticas de bajo nivel convierten estos planes en pasos de acción concretos;

  • Contexto Mundial: El contexto mundial incluye información del entorno, estado del mundo y estado del juego, estos datos ayudan a los Agentes a entender el contexto en el que se encuentran;

  • Módulo de Procesamiento de Diálogos: El módulo de procesamiento de diálogos se encarga de manejar mensajes y respuestas, puede generar diálogos o reacciones como salida;

  • Operador de Billetera en Cadena: el operador de billetera en cadena podría involucrar aplicaciones de tecnología blockchain, aunque la funcionalidad específica no está clara;

  • Módulo de Aprendizaje: el módulo de aprendizaje aprende de los comentarios y actualiza la base de conocimientos del Agente;

  • Memoria de Trabajo: la memoria de trabajo almacena las acciones recientes del Agente, resultados y planes actuales, entre otra información a corto plazo;

  • Procesador de Memoria a Largo Plazo: el procesador de memoria a largo plazo se encarga de extraer información importante sobre el Agente y su memoria de trabajo, clasificando según la puntuación de importancia, recencia y relevancia;

  • Repositorio de Agentes: el repositorio de Agentes guarda los objetivos, reflexiones, experiencias y atributos de personalidad del Agente;

  • Planificador de Acciones: el planificador de acciones genera planes de acción concretos según las políticas de bajo nivel;

  • Ejecutor de Plan: el ejecutor de plan se encarga de ejecutar los planes de acción generados por el planificador de acciones.

Flujo de trabajo: los desarrolladores inician el Agente a través de la interfaz de indicaciones del Agente, el subsistema de percepción recibe la entrada y la transmite al motor de planificación estratégica. El motor de planificación estratégica utiliza el sistema de memoria, el contexto mundial y la información de la biblioteca de Agentes para formular y ejecutar un plan de acción. El módulo de aprendizaje monitorea continuamente los resultados de las acciones del Agente y ajusta el comportamiento del Agente según los resultados.

Escenarios de aplicación: desde la perspectiva de la arquitectura técnica general, este marco se centra principalmente en la toma de decisiones, retroalimentación, percepción y personalidad de los Agentes en entornos virtuales; en cuanto a casos de uso, es aplicable no solo en juegos, sino también en el Metaverso, y en la lista a continuación en Virtual, se puede ver que ya hay muchos proyectos que utilizan este marco para construir.

1.3 Rig

Rig es una herramienta de código abierto escrita en Rust, diseñada para simplificar el desarrollo de aplicaciones para modelos de lenguaje de gran tamaño (LLM). Proporciona una interfaz de operación unificada que permite a los desarrolladores interactuar fácilmente con múltiples proveedores de servicios LLM (como OpenAI y Anthropic) y varias bases de datos vectoriales (como MongoDB y Neo 4 j).

Características clave:

  • Interfaz unificada: sin importar qué proveedor de LLM o qué tipo de almacenamiento vectorial, Rig puede proporcionar una forma de acceso consistente, reduciendo enormemente la complejidad del trabajo de integración;

  • Arquitectura modular: el marco utiliza un diseño modular, que incluye la 'capa de abstracción del proveedor', 'interfaz de almacenamiento vectorial' y 'sistema de agentes inteligentes', asegurando la flexibilidad y escalabilidad del sistema;

  • Seguridad de tipos: utilizando las características de Rust, se implementó una operación de inserción segura en tipo, garantizando la calidad del código y la seguridad en tiempo de ejecución;

  • Rendimiento eficiente: admite un modo de programación asíncrona, optimizando la capacidad de procesamiento concurrente; los registros y funciones de monitoreo integrados ayudan en el mantenimiento y solución de problemas.

Flujo de trabajo: cuando un usuario solicita ingresar al sistema Rig, primero pasa por la 'capa de abstracción del proveedor', que se encarga de estandarizar las diferencias entre diferentes proveedores y garantizar la consistencia en el manejo de errores. Luego, en la capa central, el Agente inteligente puede invocar varias herramientas o consultar almacenamiento vectorial para obtener la información necesaria. Finalmente, a través de mecanismos avanzados como la generación aumentada por recuperación (RAG), el sistema puede combinar la recuperación de documentos y la comprensión contextual para generar respuestas precisas y significativas, que luego se devuelven al usuario.

Escenarios de aplicación: Rig no solo es adecuado para construir sistemas de respuesta a preguntas que requieren respuestas rápidas y precisas, sino que también puede usarse para crear herramientas de búsqueda de documentos eficientes, chatbots o asistentes virtuales con capacidad de percepción contextual, e incluso soportar la creación de contenido, generando automáticamente texto u otras formas de contenido según patrones de datos existentes.

1.4 ZerePy

ZerePy es un marco de código abierto basado en Python, diseñado para simplificar el proceso de implementación y gestión de Agentes de IA en la plataforma X (anteriormente Twitter). Se originó en el proyecto Zerebro, heredando sus funciones centrales, pero fue diseñado de manera más modular y fácil de escalar. Su objetivo es permitir a los desarrolladores crear Agentes de IA personalizados fácilmente y realizar diversas tareas de automatización y creación de contenido en X.

ZerePy proporciona una interfaz de línea de comandos (CLI) que facilita a los usuarios gestionar y controlar los Agentes de IA que implementan '1'. Su arquitectura central se basa en un diseño modular, permitiendo a los desarrolladores integrar flexiblemente diferentes módulos de funcionalidad, como:

  • Integración LLM: ZerePy admite modelos de lenguaje de gran tamaño (LLM) de OpenAI y Anthropic, permitiendo a los desarrolladores elegir el modelo más adecuado para su escenario de aplicación. Esto permite que el Agente genere contenido textual de alta calidad;

  • Integración de la plataforma X: el marco integra directamente la API de la plataforma X, permitiendo que el Agente realice publicaciones, respuestas, me gusta, retweets, entre otras acciones;

  • Sistema de conexión modular: este sistema permite a los desarrolladores agregar fácilmente soporte para otras plataformas sociales o servicios, expandiendo las funcionalidades del marco;

  • Sistema de memoria (planificación futura): aunque la versión actual puede no estar completamente implementada, el objetivo de diseño de ZerePy incluye integrar un sistema de memoria que permita al Agente recordar interacciones y contexto anteriores, generando así contenido más coherente y personalizado.

Aunque ZerePy y el proyecto Eliza de a16z están dedicados a construir y gestionar Agentes de IA, ambos tienen diferencias en arquitectura y objetivos. Eliza se centra más en la simulación de múltiples agentes y en una investigación de IA más amplia, mientras que ZerePy se enfoca en simplificar el proceso de implementación de Agentes de IA en plataformas sociales específicas (X), inclinándose más hacia la aplicación práctica.

二、BTC 生态的翻版

De hecho, en términos de trayectoria de desarrollo, los Agentes de IA tienen muchas similitudes con el ecosistema BTC a finales de 2023 y principios de 2024; la trayectoria de desarrollo del ecosistema BTC se puede resumir como: competencia de múltiples protocolos BRC 20-Atomical/Rune - BTC L2 - BTCFi centrada en Babylon. Mientras que los Agentes de IA se desarrollan más rápidamente sobre una base de tecnología de IA tradicional madura, su trayectoria de desarrollo general tiene muchas similitudes con el ecosistema BTC. Lo resumo de la siguiente manera: competencia entre marcos de Agentes GOAT/ACT - tipo social - Agentes de IA analíticos. Desde una perspectiva de tendencia, los proyectos de infraestructura que se centran en la descentralización y la seguridad en torno a los Agentes probablemente también se beneficiarán de esta ola de entusiasmo por los marcos, convirtiéndose en el tema principal de la próxima etapa.

¿Se volverá esta pista homogénea y burbujeante como el ecosistema BTC? Creo que no, primero, la narrativa de los Agentes de IA no está destinada a reproducir la historia de las cadenas de contratos inteligentes, y segundo, los proyectos existentes de marcos de IA, ya sea que tengan realmente la capacidad o estén estancados en la fase de PPT o ctrl c + ctrl v, al menos ofrecen una nueva idea de desarrollo de infraestructura. Muchos artículos comparan los marcos de IA con plataformas de emisión de activos, y los Agentes con activos; en realidad, en comparación con Memecoin Launchpad y el protocolo de inscripciones, personalmente creo que los marcos de IA se asemejan más a las futuras cadenas públicas, y los Agentes a los futuros Dapp.

En el actual entorno de Crypto, tenemos miles de cadenas públicas y decenas de miles de Dapp. Entre las cadenas universales están BTC, Ethereum y varias cadenas heterogéneas, mientras que las formas de cadenas de aplicación son más diversas, como cadenas de juegos, cadenas de almacenamiento y cadenas Dex. Las cadenas públicas son muy similares a los marcos de IA, y los Dapp también pueden corresponder bien a los Agentes.

En la era de la IA dentro de Crypto, es muy probable que avancemos hacia esta forma; el debate futuro se trasladará de la discusión sobre EVM y cadenas heterogéneas a la competencia entre marcos. La pregunta ahora es más sobre cómo descentralizar o, dicho de otra manera, cómo 'chainizarse'? Creo que los proyectos de infraestructura de IA posteriores se desarrollarán sobre esta base, y otra pregunta es: ¿cuál es el significado de hacer esto en la cadena de bloques?

三、上链的意义?

La blockchain, sin importar con qué cosa se combine, siempre enfrenta una pregunta: ¿es significativo? En un artículo del año pasado, critiqué la inversión mal orientada de GameFi y el desarrollo prematuro de Infra; en los artículos anteriores sobre IA, expresé que no era optimista sobre la combinación de IA x Crypto en campos prácticos en esta etapa. Después de todo, el impulso de la narrativa se ha vuelto cada vez más débil para los proyectos tradicionales, y los pocos proyectos tradicionales con un buen desempeño de precios el año pasado necesariamente debían tener el poder de igualar o superar sus precios. ¿Qué utilidad tiene la IA para Crypto? Anteriormente, pensé en ideas relativamente comunes pero necesarias, como que los Agentes operen automáticament, o que el Metaverso y los Agentes sirvan como empleados. Sin embargo, estas necesidades no justifican completamente la incorporación a la cadena, y desde una lógica comercial, no pueden cerrarse. La implementación de intenciones a través de un navegador de Agentes mencionado en el último artículo podría generar demandas de etiquetado de datos y potencia de inferencia, pero la combinación sigue siendo insuficiente y, en términos de potencia de cálculo, el dominio centralizado sigue predominando.

Repensar el camino al éxito de DeFi: el éxito de DeFi en obtener una parte del mercado financiero tradicional se debe a su mayor accesibilidad, mejor eficiencia y menores costos, además de no requerir la confianza en un centro de seguridad. Si pensamos en esta línea, creo que hay varias razones que podrían respaldar la 'chainización' de Agentes.

1.¿Puede la 'chainización' de los Agentes lograr costos de uso más bajos, promoviendo así una mayor accesibilidad y opciones? Finalmente, permitiendo que los 'derechos de alquiler' de IA exclusivos de las grandes empresas de Web2 estén disponibles para los usuarios comunes;

2.Seguridad, de acuerdo con la definición más simple de un Agente, una IA que se llame Agente debería poder interactuar con el mundo virtual o real; si un Agente puede intervenir en la realidad o en mi billetera virtual, entonces una solución de seguridad basada en blockchain también se convierte en una necesidad;

3.¿Puede un Agente implementar un conjunto de jugadas financieras exclusivas de blockchain? Por ejemplo, en AMM, LP permite a las personas comunes participar en la creación de mercado automatizada; los Agentes pueden necesitar potencia de cálculo, etiquetado de datos, etc., y los usuarios podrían invertir en el protocolo en forma de U cuando tengan confianza. O también, Agentes en diferentes escenarios de aplicación pueden formar nuevas jugadas financieras;

4.DeFi actualmente no tiene perfecta interoperabilidad; si los Agentes combinados con blockchain pueden realizar inferencias transparentes y rastreables, tal vez sean más atractivos que los navegadores de Agentes ofrecidos por los gigantes de Internet tradicionales mencionados en el artículo anterior.

四、创意?

Los proyectos de tipo marco también ofrecerán en el futuro oportunidades de emprendimiento similares a GPT Store. Aunque actualmente lanzar un Agente a través de un marco es complicado para los usuarios comunes, creo que simplificar el proceso de construcción de Agentes y proporcionar combinaciones de funciones complejas, será una ventaja en el futuro, formando una economía creativa Web3 más interesante que GPT Store.

Actualmente, el GPT Store sigue siendo más práctico en campos tradicionales, y la mayoría de las aplicaciones populares han sido creadas por empresas tradicionales de Web2, monopolizando así los ingresos. Según la explicación oficial de OpenAI, esta estrategia solo proporciona apoyo financiero a algunos desarrolladores destacados en Estados Unidos, otorgando subsidios en ciertas cantidades.

Desde la perspectiva de la demanda, Web3 aún tiene muchos aspectos que necesitan ser llenados, y en términos de sistema económico, también puede hacer que las políticas injustas de los gigantes de Web2 sean más justas. Además, podemos introducir la economía comunitaria para mejorar los Agentes. La economía creativa de los Agentes será una oportunidad para que las personas comunes participen, mientras que los futuros Memes de IA serán mucho más inteligentes y divertidos que los Agentes emitidos en GOAT o Clanker.

Artículos de referencia:

1.Evolución histórica de los marcos de IA y exploración de tendencias

2.Bybit: Complejo AI Rig (ARC): Marco de Agentes de IA

3.Deep Value Memetics: Comparación horizontal de los cuatro principales marcos Crypto × IA: condiciones, ventajas y desventajas, potencial de crecimiento

4.Documentación oficial de Eliza

5.Documentación oficial de Virtual