Artículo reimpreso de: BlockBooster
Autor: Kevin, el Investigador de BlockBooster
El marco de Agente de IA, como pieza clave en el desarrollo de la industria, puede contener el potencial doble de impulsar la implementación tecnológica y la madurez del ecosistema. Los marcos en discusión en el mercado incluyen: Eliza, Rig, Swarms, ZerePy, entre otros. Estos marcos atraen a los desarrolladores a través de repositorios de Github, construyendo reputación. Emitir tokens en forma de 'biblioteca' hace que estos marcos, al mismo tiempo, posean características de onda y partícula, el marco de Agente posee tanto externalidades serias como características de Memecoin. Este artículo se centrará en interpretar la 'dualidad onda-partícula' del marco y por qué el marco de Agente puede convertirse en la última pieza del rompecabezas.
Las externalidades que trae el marco de Agente pueden dejar brotes en la primavera después de que la burbuja se disipe.
Desde el nacimiento de GOAT, la narrativa del Agente ha impactado cada vez más el mercado, como un maestro de artes marciales, con el puño izquierdo 'Memecoin' y la palma derecha 'esperanza de la industria', siempre acabarás perdiendo en uno de los movimientos. De hecho, los escenarios de aplicación del Agente no están estrictamente diferenciados. La línea entre plataforma, marco y aplicación específica es borrosa, pero aún se puede clasificar aproximadamente según las preferencias del token o protocolo. Sin embargo, según las preferencias de desarrollo del token o protocolo, aún se puede dividir en las siguientes categorías:
Launchpad: plataforma de emisión de activos. Protocolo Virtuals en Base Chain y clanker, Dasha en Solana Chain.
Aplicaciones de Agente de IA: oscilando entre Agente y Memecoin, destacan en la configuración de memoria, como GOAT, aixbt, etc. Estas aplicaciones generalmente son de salida unidireccional, con condiciones de entrada muy limitadas.
Motores de Agente de IA: griffain en la cadena de Solana y Spectre AI en la cadena base. griffain puede evolucionar de un modo de lectura/escritura a un modo de lectura, escritura y acción; Spectre AI es un motor RAG, búsqueda en cadena.
Marcos de Agente de IA: para plataformas de marco, el Agente en sí es un activo, por lo que el marco de Agente es la plataforma de emisión de activos de Agentes, es el Launchpad de Agentes. Actualmente, los proyectos representativos incluyen ai16, Zerebro, ARC y Swarms, que ha estado en discusión recientemente.
Otras pequeñas direcciones: Agente Simmi de tipo integral; protocolo AgentFi Mode; Agente de refutación Seraph; API en tiempo real Agent Creator.Bid.
Al discutir más a fondo el marco de Agente, se puede ver que tiene suficientes externalidades. A diferencia de los desarrolladores de las principales cadenas públicas y protocolos que solo pueden elegir en diferentes entornos de lenguajes de desarrollo, el tamaño total de desarrolladores en la industria no ha mostrado un crecimiento correspondiente con la velocidad de aumento de capitalización de mercado. El repositorio de Github es el lugar donde los desarrolladores de Web2 y Web3 establecen consenso, aquí construir una comunidad de desarrolladores tiene un poder de atracción e influencia mucho más fuerte que cualquier paquete 'plug-and-play' desarrollado por un protocolo por separado.
Los cuatro marcos mencionados en este artículo son de código abierto: el marco Eliza de ai16z ha obtenido 6200 estrellas; el marco ZerePy de Zerebro ha recibido 191 estrellas; el marco Rig de ARC ha obtenido 1700 estrellas; el marco Swarms de Swarms ha recibido 2100 estrellas. Actualmente, el marco Eliza se utiliza ampliamente en diversas aplicaciones de Agente, siendo el marco más amplio en cobertura. El desarrollo de ZerePy no es muy avanzado, su dirección de desarrollo se centra principalmente en X, y aún no soporta LLM locales ni memoria integrada. Rig tiene una dificultad de desarrollo relativamente alta, pero ofrece a los desarrolladores la máxima libertad para lograr la optimización del rendimiento. Swarms, además del mcs lanzado por el equipo, aún no tiene otros casos de uso, pero puede integrar diferentes marcos, lo que ofrece un amplio espacio para la imaginación.
Además, la separación de los motores de Agente y marco en la clasificación anterior podría causar confusión. Pero creo que hay una diferencia. Primero, ¿por qué es un motor? Comparar con motores de búsqueda en la vida real es relativamente adecuado. A diferencia de las aplicaciones de Agente homogeneizadas, el rendimiento del motor de Agente está por encima de ellas, pero es completamente encapsulado, ajustado a través de interfaces API. Los usuarios pueden experimentar el rendimiento del motor de Agente en forma de fork, pero no pueden dominar la visión completa y la libertad de personalización como lo hacen con el marco base. Cada motor de usuario es como generar una imagen en un Agente ajustado, interactuando con esa imagen. El marco, por su parte, está esencialmente diseñado para adaptarse a la cadena, porque cuando un Agente crea un marco de Agente, el objetivo final es integrarse con la cadena correspondiente, cómo definir el modo de interacción de datos, cómo definir el modo de verificación de datos, cómo definir el tamaño de bloque, cómo equilibrar consenso y rendimiento, son consideraciones que el marco debe abordar. ¿Y el motor? Solo necesita ajustar finamente el modelo y establecer la relación entre la interacción de datos y la memoria en una dirección particular, donde el rendimiento es el único criterio de evaluación, a diferencia del marco.
Evaluar el marco de Agente desde la perspectiva de la 'dualidad onda-partícula' podría ser un prerequisito para asegurar que se avanza en la dirección correcta.
Un Agente necesita tres partes en su ciclo de vida de entrada y salida. Primero, el modelo subyacente determina la profundidad y manera de pensar; luego, la memoria es el área personalizada, que, tras obtener la salida del modelo base, se modifica según la memoria. Finalmente, se completa la operación de salida en diferentes clientes.
Fuente: @SuhailKakar
Para demostrar que el marco de Agente tiene 'dualidad onda-partícula', la 'onda' tiene características de 'Memecoin', representando la cultura comunitaria y la actividad de desarrolladores, enfatizando la atracción y capacidad de difusión del Agente; la 'partícula' representa características de 'expectativas de la industria', representando el rendimiento subyacente, casos de uso reales y profundidad técnica. Explicaré estos dos aspectos utilizando tutoriales de desarrollo de tres marcos como ejemplos:
Marco de Eliza de ensamblaje rápido
Configurar el entorno
Fuente: @SuhailKakar
Instalar Eliza
Fuente: @SuhailKakar
3. Archivos de configuración
Fuente: @SuhailKakar
4. Configurar la personalidad del Agente
Fuente: @SuhailKakar
El marco de Eliza es relativamente fácil de usar. Está basado en TypeScript, que es el lenguaje con el que la mayoría de los desarrolladores de Web y Web3 están familiarizados. El marco es sencillo, sin excesiva abstracción, permitiendo a los desarrolladores agregar fácilmente las funciones que deseen. A través del paso 3, se puede ver que Eliza permite la integración de múltiples clientes, lo que se puede entender como un ensamblador para la integración de múltiples clientes. Eliza admite plataformas como DC, TG y X, y también admite varios modelos de lenguaje grande, permitiendo la entrada a través de las mencionadas redes sociales, salida mediante modelos LLM, y soporta gestión de memoria incorporada, lo que permite a cualquier desarrollador habitual implementar rápidamente un Agente de IA.
Debido a la simplicidad del marco y la riqueza de su interfaz, Eliza ha reducido considerablemente la barrera de entrada, logrando un estándar de interfaz relativamente unificado.
Marco ZerePy de uso con un clic
1. Hacer un fork de la biblioteca ZerePy
Fuente: https://replit.com/@blormdev/ZerePy?v=1
2. Configurar X y GPT
Fuente: https://replit.com/@blormdev/ZerePy?v=1
3. Configurar la personalidad del Agente
Fuente: https://replit.com/@blormdev/ZerePy?v=1
Rig, un marco de optimización de rendimiento
Tomando como ejemplo la construcción de un Agente RAG (Generación Aumentada por Recuperación):
1. Configurar el entorno y la clave de OpenAI
Fuente: https://dev.to/0thtachi/build-a-rag-system-with-rig-in-under-100-lines-of-code-4422
2. Configurar el cliente OpenAI y utilizar Chunking para el procesamiento de PDF
Fuente: https://dev.to/0thtachi/build-a-rag-system-with-rig-in-under-100-lines-of-code-4422
3. Configurar la estructura de documentos y la incrustación
Fuente: https://dev.to/0thtachi/build-a-rag-system-with-rig-in-under-100-lines-of-code-4422
4. Crear almacenamiento vectorial y agente RAG
Fuente: https://dev.to/0thtachi/build-a-rag-system-with-rig-in-under-100-lines-of-code-4422
Rig (ARC) es un marco de construcción de sistemas de IA orientado a flujos de trabajo LLM basado en el lenguaje Rust, que busca resolver problemas de optimización de rendimiento en un nivel más profundo. En otras palabras, ARC es una 'caja de herramientas' de motor de IA que proporciona soporte de backend para llamadas de IA, optimización de rendimiento, almacenamiento de datos, manejo de excepciones, etc.
Rig busca resolver el problema de 'llamada', ayudando a los desarrolladores a elegir mejor LLM, optimizar mejor los prompts, gestionar tokens de manera más eficaz, y manejar el procesamiento concurrente, gestionar recursos y reducir la latencia, centrándose en cómo 'sacar el mejor provecho' en el proceso de colaboración entre el modelo LLM de IA y el sistema de Agentes de IA.
Rig es una biblioteca Rust de código abierto, diseñada para simplificar el desarrollo de aplicaciones impulsadas por LLM (incluidos los Agentes RAG). Debido a la profundidad de apertura de Rig, se requieren mayores exigencias de los desarrolladores, así como una mejor comprensión de Rust y de Agentes. Este tutorial es el flujo de configuración más básico para un Agente RAG, que se mejora combinando LLM con la recuperación de conocimiento externo. En otras demostraciones en el sitio web, se puede ver que Rig tiene las siguientes características:
Interfaz LLM unificada: soporte para una API consistente de diferentes proveedores de LLM, simplificando la integración.
Flujo de trabajo abstracto: módulos preconstruidos permiten a Rig abordar el diseño de sistemas de IA complejos.
Integración de almacenamiento vectorial: soporte incorporado para almacenamiento de recorte, proporcionando un rendimiento eficiente en Agentes de búsqueda similares como el Agente RAG.
Incrustación flexible: ofrece una API fácil de usar para manejar incrustaciones, reduciendo la dificultad de comprensión semántica al desarrollar Agentes de búsqueda similares como el Agente RAG.
Se puede observar que en comparación con Eliza, Rig ofrece a los desarrolladores un espacio adicional de optimización de rendimiento, ayudando a los desarrolladores a depurar mejor las llamadas y la colaboración entre LLM y Agentes. Rig aprovecha el rendimiento impulsado por Rust, utiliza las ventajas de Rust para una abstracción sin costo y seguridad de memoria, además de operaciones LLM de alto rendimiento y baja latencia. Puede proporcionar una mayor libertad a nivel subyacente.
Marco Swarms de descomposición y combinación
Swarms tiene como objetivo proporcionar un marco de orquestación de múltiples Agentes de nivel empresarial, el sitio web ofrece decenas de flujos de trabajo y arquitecturas de Agentes en paralelo y en serie, aquí se presenta una pequeña parte de ellos.
Flujo de trabajo secuencial
Fuente: https://docs.swarms.world
La arquitectura Swarm secuencial procesa tareas en un orden lineal. Cada Agente completa su tarea antes de pasar el resultado al siguiente Agente en la cadena. Esta arquitectura asegura un procesamiento ordenado y es muy útil cuando las tareas tienen dependencias.
Caso de uso:
Cada paso en el flujo de trabajo depende del paso anterior, como una línea de ensamblaje o procesamiento de datos secuencial.
Escenarios que requieren un estricto orden de operación.
Arquitectura jerárquica:
Fuente: https://docs.swarms.world
Implementar control de arriba hacia abajo, coordinando las tareas entre los Agentes subordinados por medio del Agente superior. Los Agentes ejecutan tareas simultáneamente y luego retroalimentan sus resultados al ciclo para la agregación final. Esto es muy útil para tareas altamente paralelizadas.
Arquitectura de hoja de cálculo:
Fuente: https://docs.swarms.world
Arquitectura de grupo a gran escala para gestionar múltiples agentes que trabajan simultáneamente. Puede gestionar miles de agentes al mismo tiempo, cada uno ejecutándose en su propio hilo. Es la opción ideal para supervisar la salida de agentes a gran escala.
Swarms no solo es un marco de Agente, sino que también puede ser compatible con los marcos mencionados Eliza, ZerePy y Rig, maximizando el rendimiento del Agente en diferentes flujos de trabajo y arquitecturas con un enfoque modular para resolver problemas correspondientes. El concepto de Swarms y el progreso de la comunidad de desarrolladores no tienen problemas.
Eliza: la más fácil de usar, adecuada para principiantes y desarrollo rápido de prototipos, especialmente para interacciones de IA en plataformas de redes sociales. El marco es sencillo, facilitando la integración y modificación rápida, adecuado para escenarios que no requieren una optimización de rendimiento excesiva.
ZerePy: implementación con un clic, ideal para el desarrollo rápido de aplicaciones de Agentes de IA en Web3 y plataformas sociales. Adecuado para aplicaciones de IA ligeras, el marco es simple, con configuraciones flexibles, adecuado para construcciones rápidas e iteraciones.
Rig: enfocado en la optimización del rendimiento, especialmente en tareas de alta concurrencia y alto rendimiento, es adecuado para desarrolladores que requieren un control y optimización detallados. El marco es relativamente complejo, requiriendo un conocimiento de Rust, adecuado para desarrolladores más experimentados.
Swarms: adecuado para aplicaciones empresariales, soporta la colaboración de múltiples Agentes y la gestión de tareas complejas. El marco es flexible, soporta el procesamiento paralelo a gran escala y ofrece diversas configuraciones arquitectónicas, pero debido a su complejidad, puede requerir un contexto técnico más fuerte para su aplicación efectiva.
En general, Eliza y ZerePy tienen ventajas en usabilidad y desarrollo rápido, mientras que Rig y Swarms son más adecuados para desarrolladores profesionales o aplicaciones empresariales que requieren alto rendimiento y procesamiento a gran escala.
Esta es la razón por la cual el marco de Agente tiene características de 'esperanza de la industria'; el marco mencionado aún está en su etapa temprana, y la prioridad es capturar la ventaja de ser el primero y establecer una comunidad de desarrolladores activa. La calidad del rendimiento del marco y si está rezagado respecto a las aplicaciones populares de Web2 no son las principales contradicciones. Solo el marco que atraiga continuamente a los desarrolladores podrá finalmente prevalecer, porque la industria de Web3 siempre necesita captar la atención del mercado. No importa cuán fuerte sea el rendimiento del marco o cuán sólidos sean los fundamentos, si es difícil de usar y lleva a que no haya interés, sería contraproducente. Con la condición de que el marco pueda atraer desarrolladores, el marco con un modelo económico de token más maduro y completo sobresaldrá.
Y es fácil entender que el marco de Agent tiene características de 'Memecoin'. Los tokens de los marcos mencionados carecen de un diseño económico razonable, no tienen casos de uso o sus casos de uso son muy limitados, carecen de un modelo de negocio validado y no tienen un ciclo de token efectivo. El marco es simplemente un marco, y no hay una combinación orgánica entre el token y el marco. El crecimiento del precio del token, además del FOMO, es difícil de respaldar en términos fundamentales, y no hay suficientes muros de contención para asegurar un crecimiento de valor estable y duradero. Al mismo tiempo, el marco mencionado también parece bastante rudimentario, y su valor real no coincide con su capitalización de mercado actual, lo que le confiere una fuerte característica de 'Memecoin'.
Es importante notar que la 'dualidad onda-partícula' del marco de Agente no es un defecto, no se puede entender de manera simplista como que no es un 'Memecoin' puro, ni una media medida sin casos de uso de token. Como mencioné en el artículo anterior: un Agente ligero cubre con un velo ambiguo de 'Memecoin', la cultura comunitaria y los fundamentos ya no serán contradictorios, un nuevo camino de desarrollo de activos está emergiendo; aunque el marco de Agente tiene burbujas e incertidumbres en sus inicios, su potencial para atraer desarrolladores y promover la implementación de aplicaciones no debe ser subestimado. En el futuro, un marco con un modelo económico de token completo y un ecosistema de desarrolladores fuerte podría convertirse en un pilar clave en este sector.