Desde la segunda mitad de este año, el tema del Agente AI ha mantenido un creciente interés. Inicialmente, el chatbot AI terminal of truths ganó atención por sus publicaciones y respuestas humorísticas en X (similar a 'Robert' en Weibo), y recibió una financiación de 50,000 dólares del fundador de a16z, Marc Andreessen. Inspirados por su contenido, se creó el token GOAT, que aumentó más del 10,000% en solo 24 horas. El tema del Agente AI rápidamente llamó la atención de la comunidad Web3. Luego, nació el primer fondo de inversión en AI descentralizado basado en Solana, ai16z, que lanzó el marco de desarrollo de Agente AI, Eliza, provocando una disputa entre tokens de mayúsculas y minúsculas. Sin embargo, la comunidad aún no tiene claro el concepto de Agente AI: ¿cuál es su núcleo? ¿En qué se diferencia de los bots de trading de Telegram?
Funcionamiento: percepción, razonamiento y toma de decisiones autónoma
El Agente AI es un sistema de agente inteligente basado en modelos de lenguaje de gran tamaño (LLM), capaz de percibir el entorno, tomar decisiones de razonamiento y completar tareas complejas mediante la invocación de herramientas o la ejecución de acciones. Flujo de trabajo: módulo de percepción (obtener entradas) → LLM (comprensión, razonamiento y planificación) → invocación de herramientas (ejecución de tareas) → retroalimentación y optimización (verificación y ajuste).
Específicamente, el Agente AI primero obtiene datos del entorno externo a través del módulo de percepción (como texto, audio, imágenes, etc.) y los transforma en información estructurada que puede ser procesada. El LLM, como componente central, proporciona una poderosa capacidad de comprensión y generación de lenguaje natural, actuando como el 'cerebro' del sistema. Basándose en los datos de entrada y el conocimiento existente, el LLM realiza razonamientos lógicos, generando posibles soluciones o planes de acción. Luego, el Agente AI completa tareas específicas mediante la invocación de herramientas externas, complementos o API, y valida y ajusta los resultados según la retroalimentación, formando un ciclo de optimización.
En los escenarios de aplicación de Web3, ¿cuál es la diferencia entre el Agente AI y los bots de trading de Telegram o los scripts automatizados? Tomemos el arbitraje como ejemplo: los usuarios desean realizar operaciones de arbitraje bajo la condición de que las ganancias sean superiores al 1%. En los bots de trading de Telegram que admiten arbitraje, los usuarios configuran la estrategia de trading para que las ganancias sean superiores al 1%, y el bot comienza a ejecutar. Sin embargo, cuando el mercado es volátil y las oportunidades de arbitraje cambian constantemente, estos bots carecen de capacidad de evaluación de riesgos; ejecutan arbitrajes siempre que se cumpla la condición de ganancias superiores al 1%. En comparación, el Agente AI puede ajustar automáticamente la estrategia. Por ejemplo, cuando una operación tiene una ganancia superior al 1%, pero el análisis de datos evalúa que el riesgo es demasiado alto, el mercado podría cambiar repentinamente y causar pérdidas, decidirá no ejecutar esa operación de arbitraje.
Por lo tanto, el Agente AI posee auto-adaptabilidad, y su ventaja central radica en su capacidad de auto-aprendizaje y toma de decisiones autónoma. A través de la interacción con el entorno (como el mercado, el comportamiento del usuario, etc.), ajusta sus estrategias de comportamiento según las señales de retroalimentación, mejorando constantemente la efectividad de la ejecución de tareas. También puede tomar decisiones en tiempo real basadas en datos externos y optimizar continuamente las estrategias de decisión a través del aprendizaje por refuerzo.
¿No suena un poco como un solucionador (solver) bajo un marco de intenciones? El Agente AI también es un producto basado en intenciones, y la mayor diferencia con el solucionador bajo el marco de intenciones es que el solucionador depende de algoritmos precisos, con rigor matemático, mientras que la toma de decisiones del Agente AI depende del entrenamiento de datos, a menudo requiriendo un proceso de prueba y error para acercarse a la solución óptima.
Marcos principales del Agente AI
El marco del Agente AI es la infraestructura para crear y gestionar agentes inteligentes. Actualmente, en Web3, los marcos más populares incluyen Eliza de ai16z, ZerePy de zerebro y GAME de Virtuals.
Eliza es un marco multifuncional de Agente AI, construido con TypeScript, que admite la ejecución en múltiples plataformas (como Discord, Twitter, Telegram, etc.) y, a través de una gestión de memoria compleja, puede recordar conversaciones y contextos anteriores, manteniendo características de personalidad y respuestas de conocimiento estables y consistentes. Eliza utiliza un sistema RAG (Generación Aumentada por Recuperación), que puede acceder a bases de datos o recursos externos para generar respuestas más precisas. Además, Eliza integra un complemento TEE, que permite el despliegue en TEE, asegurando la seguridad y privacidad de los datos.
GAME es el marco que empodera y conduce al Agente AI a tomar decisiones autónomas y acciones. Los desarrolladores pueden personalizar el comportamiento del agente según sus necesidades, ampliar su funcionalidad y ofrecer operaciones personalizadas (como publicaciones en redes sociales, respuestas, etc.). Las diferentes funciones dentro del marco, como la ubicación del agente y las tareas, se dividen en varios módulos, facilitando la configuración y gestión por parte de los desarrolladores. El marco GAME divide el proceso de decisión del Agente AI en dos niveles: planificación de alto nivel (HLP) y planificación de bajo nivel (LLP), cada uno responsable de diferentes niveles de tareas y decisiones. La planificación de alto nivel establece los objetivos generales y la planificación de tareas del agente, formulando decisiones basadas en objetivos, personalidad, información contextual y estado ambiental, determinando la prioridad de las tareas. La planificación de bajo nivel se centra en la ejecución, convirtiendo las decisiones de la planificación de alto nivel en pasos de acción concretos, eligiendo las funciones y métodos de operación adecuados.
ZerePy es un marco de Python de código abierto para desplegar Agentes AI en X. Este marco integra LLM proporcionados por OpenAI y Anthropic, permitiendo a los desarrolladores construir y gestionar agentes de redes sociales que automatizan operaciones como publicar tweets, responder tweets, dar 'me gusta', etc. Cada tarea puede establecer diferentes pesos según su importancia. ZerePy ofrece una interfaz de línea de comandos (CLI) sencilla, facilitando a los desarrolladores iniciar y gestionar agentes rápidamente. Además, el marco proporciona plantillas de Replit (una plataforma en línea para editar y ejecutar código), permitiendo a los desarrolladores comenzar a usar ZerePy rápidamente, sin necesidad de una configuración complicada del entorno local.
¿Por qué el Agente AI enfrenta FUD?
El Agente AI parece inteligente, capaz de reducir la barrera de entrada y mejorar la experiencia del usuario. ¿Por qué hay FUD en la comunidad? La razón es que el Agente AI, en esencia, sigue siendo solo una herramienta, y actualmente no puede completar todo el flujo de trabajo, solo puede mejorar la eficiencia y ahorrar tiempo en ciertos puntos. Además, en la etapa actual de desarrollo, la función del Agente AI se centra principalmente en ayudar a los usuarios a emitir MeMe y gestionar cuentas de redes sociales. La comunidad se burla diciendo 'los activos pertenecen a los desarrolladores, las responsabilidades pertenecen a la IA'.
Sin embargo, esta semana, aiPool lanzó el Agente AI como una preventa de tokens, utilizando tecnología TEE para lograr la desconfianza. La clave privada de la billetera de este Agente AI se genera dinámicamente en el entorno TEE, asegurando seguridad. Los usuarios pueden enviar fondos (como SOL) a la billetera controlada por el Agente AI, y este, según reglas establecidas, crea tokens y lanza un pool de liquidez en DEX, al mismo tiempo que distribuye tokens a inversores calificados. Todo el proceso no depende de ningún intermediario tercero, y es completamente completado por el Agente AI en el entorno TEE, evitando el común riesgo de 'rug pull' en DeFi. Se puede observar que el Agente AI está evolucionando gradualmente. Creo que el Agente AI puede ayudar a los usuarios a reducir barreras y mejorar la experiencia, incluso si solo simplifica parte del proceso de emisión de activos, es significativo. Pero desde una perspectiva macro de Web3, el Agente AI, como un producto fuera de la cadena, actualmente solo actúa como una herramienta auxiliar para contratos inteligentes, por lo que no es necesario exagerar sus capacidades. Dado que en la segunda mitad de este año, además de MeMe, ha faltado una narrativa de efecto riqueza significativa, no es sorprendente que el hype del Agente AI se haya centrado en MeMe. Solo con MeMe no se puede mantener un valor a largo plazo, por lo que si el Agente AI puede traer más innovaciones en el proceso de trading y proporcionar valor tangible, podría evolucionar hacia una herramienta infra común.