Autor original: Investigador de YBB Capital, Zeke

I. Comienza con la novedad y el desgaste de la atención

En el último año, debido a la falta de narrativas a nivel de aplicación que no pueden igualar la velocidad de explosión de la infraestructura, el campo de las criptomonedas se ha convertido gradualmente en una lucha por los recursos de atención. Desde Silly Dragon hasta Goat, desde Pump.fun hasta Clanker, la novedad y el desgaste de la atención han llevado a esta batalla a una intensa competencia. Comenzando con la forma más común de monetización para atraer la atención, rápidamente se ha transformado en un modelo de plataforma unificada entre los demandantes y proveedores de atención, y finalmente, los organismos basados en silicio se convierten en nuevos proveedores de contenido. En los extraños vehículos de Meme Coin, finalmente ha surgido algo que puede alcanzar un consenso entre los minoristas y el capital de riesgo: el Agente de IA.

La atención es, en última instancia, un juego de suma cero, pero la especulación también puede fomentar el crecimiento desmesurado. En un artículo sobre UNI, revisamos el inicio de la era dorada de blockchain; el rápido crecimiento del DeFi se debió al inicio de la era de minería LP por Compound Finance, donde entrar y salir de varios pools de minería con APYs de miles o incluso decenas de miles era la forma más primitiva de juego en cadena de aquel tiempo, aunque la situación final fue el colapso de varios pools. Sin embargo, la loca llegada de mineros de oro dejó a blockchain con una liquidez sin precedentes, y el DeFi finalmente se alejó de la pura especulación formando un camino maduro, satisfaciendo las necesidades financieras de los usuarios en aspectos como pagos, transacciones, arbitraje, y staking. Y el Agente de IA también está atravesando esta fase salvaje en la actualidad; estamos explorando cómo Crypto puede fusionarse mejor con la IA y, finalmente, llevar la capa de aplicación a nuevas alturas.

II. Cómo los Agentes actúan de manera autónoma

En el artículo anterior, hemos introducido brevemente el origen de AI Meme: Truth Terminal, así como nuestras expectativas sobre el futuro de los Agentes de IA; en este artículo, nos enfocamos primero en el Agente de IA en sí.

Primero, comencemos con la definición de Agente de IA. El término Agente en el campo de la IA es bastante antiguo pero su definición no es clara; se enfatiza principalmente la Autonomía, es decir, cualquier IA que pueda percibir el entorno y actuar en consecuencia puede ser llamada Agente. En la definición actual, el Agente de IA se asemeja más a un agente inteligente, es decir, se establece un sistema que imita la toma de decisiones humanas para un gran modelo, y en el ámbito académico, este sistema se considera el más prometedor camino hacia la AGI (Inteligencia Artificial General).

En las primeras versiones de GPT, podíamos percibir claramente que el gran modelo se asemejaba a un humano, pero al responder muchas preguntas complejas, el modelo solo podía dar respuestas vagamente correctas. La razón fundamental es que en ese momento el gran modelo se basaba en probabilidades en lugar de causalidad, y carecía de las capacidades de uso de herramientas, memoria y planificación que poseen los humanos, capacidades que el Agente de IA puede complementar. Así que, resumiendo en una fórmula: Agente de IA (Agente) = LLM (gran modelo) + Planificación + Memoria + Herramientas.

Un modelo de gran tamaño basado en prompts se asemeja más a una persona estática; solo cobra vida cuando lo ingresamos. El objetivo del agente es ser una persona más realista. Actualmente, los agentes en el sector se basan principalmente en el modelo de ajuste fino de Llama de Meta en versiones de 70b o 405b (con diferentes parámetros), poseen la capacidad de recordar y usar herramientas de API, aunque en otros aspectos pueden requerir la ayuda o entrada de humanos (incluyendo la interacción y colaboración con otros agentes). Por lo tanto, podemos ver que los principales agentes en el sector todavía existen principalmente en forma de KOL en las redes sociales. Para que un agente se asemeje más a un humano, necesita integrar la capacidad de planificación y acción, siendo la cadena de pensamiento un aspecto crucial en la planificación.

III. Cadena de Pensamiento (CoT)

El concepto de Cadena de Pensamiento (CoT) apareció por primera vez en 2022 en un artículo publicado por Google (La cadena de pensamiento provoca razonamiento en grandes modelos de lenguaje), que señala que se puede mejorar la capacidad de razonamiento del modelo generando una serie de pasos intermedios, ayudando al modelo a comprender y resolver problemas complejos de manera más efectiva.

Un típico CoT Prompt contiene tres partes: una descripción de tarea clara, una lógica de apoyo para la resolución de la tarea, y ejemplos de soluciones específicas. Esta estructura organizada ayuda al modelo a entender los requisitos de la tarea, acercándose a la respuesta a través del razonamiento lógico, aumentando así la eficiencia y precisión en la resolución de problemas. La CoT es particularmente adecuada para tareas que requieren análisis profundo y razonamiento de múltiples pasos, como la resolución de problemas matemáticos, redacción de informes de proyectos, etc. En tareas simples, la CoT puede no ofrecer ventajas significativas, pero en tareas complejas, puede mejorar notablemente el rendimiento del modelo, reduciendo la tasa de errores mediante estrategias de resolución paso a paso y mejorando la calidad de la finalización de tareas.

Al construir un Agente de IA, la CoT desempeña un papel clave, ya que el Agente de IA necesita comprender la información recibida y tomar decisiones razonables en función de ello. La CoT ayuda al Agente a procesar y analizar la información de entrada de manera efectiva al proporcionar un enfoque de pensamiento ordenado, transformando los resultados del análisis en guías de acción específicas. Este método no solo mejora la confiabilidad y eficiencia de las decisiones del Agente, sino que también aumenta la transparencia del proceso de toma de decisiones, haciendo que el comportamiento del Agente sea más predecible y rastreable. La CoT, al descomponer las tareas en múltiples pasos pequeños, ayuda al Agente a considerar detalladamente cada punto de decisión, reduciendo los errores de decisión causados por la sobrecarga de información. La CoT hace que el proceso de toma de decisiones del Agente sea más transparente, facilitando la comprensión de las bases de sus decisiones por parte de los usuarios. En la interacción con el entorno, la CoT permite que el Agente aprenda continuamente nueva información y ajuste sus estrategias de comportamiento.

La CoT, como una estrategia efectiva, no solo mejora la capacidad de razonamiento de los modelos de lenguaje de gran tamaño, sino que también desempeña un papel importante en la construcción de Agentes de IA más inteligentes y confiables. Al aprovechar la CoT, los investigadores y desarrolladores pueden crear sistemas inteligentes más adaptados a entornos complejos y con alta autonomía. La CoT ha demostrado sus ventajas únicas en aplicaciones prácticas, especialmente en el manejo de tareas complejas, ya que descomponer las tareas en una serie de pequeños pasos no solo mejora la precisión en la resolución de tareas, sino que también potencia la interpretabilidad y controlabilidad del modelo. Este enfoque de resolver problemas paso a paso puede reducir significativamente las decisiones erróneas que surgen al enfrentar tareas complejas debido a la sobreabundancia o complejidad de la información. Al mismo tiempo, este método mejora la trazabilidad y verificabilidad de toda la solución.

La función central de la CoT radica en combinar planificación, acción y observación, cerrando la brecha entre el razonamiento y la acción. Este modo de pensamiento permite que el Agente de IA formule estrategias efectivas al predecir posibles situaciones anómalas, así como acumular nueva información y validar predicciones preestablecidas mientras interactúa con el entorno externo, proporcionando nuevas bases para el razonamiento. La CoT actúa como un poderoso motor de precisión y estabilidad, ayudando al Agente de IA a mantener una alta eficiencia operativa en entornos complejos.

IV. Demandas falsas correctas

¿Con qué aspectos de la tecnología AI debería combinarse Crypto? En el artículo del año pasado, consideré que la descentralización del poder de cómputo y los datos es un paso clave para ayudar a las pequeñas empresas y desarrolladores individuales a ahorrar costos, y este año, en la subdivisión de Crypto x AI organizada por Coinbase, hemos visto una clasificación más detallada:

(1) Capa de cálculo (se refiere a redes que se centran en proporcionar recursos de unidades de procesamiento gráfico (GPU) para desarrolladores de IA);

(2) Capa de datos (se refiere a redes que apoyan el acceso, orquestación y verificación descentralizados de los datos de IA);

(3) Capa de middleware (se refiere a plataformas o redes que apoyan el desarrollo, implementación y alojamiento de modelos o agentes de IA);

(4) Capa de aplicación (se refiere a productos orientados al usuario que utilizan mecanismos de IA en la cadena, ya sea B2B o B2C).

En estas cuatro capas de división, cada capa tiene una gran visión; su objetivo, en resumen, es luchar contra el dominio de los gigantes de Silicon Valley sobre la próxima era de Internet. Como mencioné el año pasado, ¿realmente debemos aceptar que los gigantes de Silicon Valley controlen exclusivamente la potencia de cálculo y los datos? En el modelo cerrado monopolizado por ellos, su interior es una caja negra; la ciencia, como la religión más creída por la humanidad hoy en día, hará que cada palabra que los grandes modelos respondan sea vista como verdad por una gran parte de la población, pero ¿cómo se puede verificar esta verdad? Según la visión de los gigantes de Silicon Valley, los permisos que eventualmente poseerán los agentes serán inimaginables, como tener el derecho de pago de tu billetera, el derecho de uso de terminales, ¿cómo garantizar que una persona no tenga malas intenciones?

La descentralización es la única respuesta, pero a veces, ¿necesitamos considerar razonablemente cuántos de los que pagan por estas grandes visiones hay? En el pasado, podíamos compensar los errores derivados de la idealización a través de tokens sin considerar el ciclo comercial. Sin embargo, la situación actual es muy severa; Crypto x AI necesita combinarse con la realidad para diseñar, por ejemplo, cómo equilibrar la oferta en ambos extremos en condiciones de pérdida de rendimiento e inestabilidad en la capa de potencia, para lograr competitividad con la nube centralizada. ¿Cuántos usuarios reales habrá en los proyectos de la capa de datos? ¿Cómo verificar la autenticidad y efectividad de los datos proporcionados? ¿Qué tipo de clientes necesitan esos datos? Los otros niveles son análogos; en esta era, no necesitamos tantas demandas falsas que parecen correctas.

V. Meme ha dado origen a SocialFi

Como mencioné en el primer párrafo, Meme ya ha adoptado una forma de SocialFi que se alinea con Web3 de manera ultrarrápida. Friend.tech es el Dapp que disparó la primera ronda de aplicaciones sociales, pero desafortunadamente fracasó por un diseño apresurado del token. Pump.fun ha validado la viabilidad de una plataforma pura, sin crear tokens ni reglas. Los demandantes y proveedores de atención se unen; puedes publicar memes, hacer transmisiones en vivo, emitir monedas, dejar comentarios y comerciar, todo es libre, Pump.fun solo cobra una tarifa de servicio. Esto es prácticamente consistente con el modelo de economía de atención de las redes sociales actuales como YouTube e Ins, solo que los sujetos de cobro son diferentes, y en términos de juego, Pump.fun es más Web3.

El Clanker de Base es el maestro de todo, gracias a la integración de un ecosistema en el que se trabaja personalmente, Base tiene su propio Dapp social como apoyo, formando un ciclo interno completo. El Agente Meme es la forma 2.0 de Meme Coin, la gente siempre busca novedades, y Pump.fun ahora se encuentra en el centro de atención; desde una perspectiva de tendencias, la locura de los organismos basados en silicio reemplazando los chistes vulgares de los organismos basados en carbono es solo cuestión de tiempo.

Ya he mencionado innumerables veces a Base, solo que cada vez el contenido mencionado es diferente. Desde una perspectiva cronológica, Base nunca ha sido un pionero, pero siempre es un ganador.

VI. ¿Qué más puede ser un agente?

Desde una perspectiva pragmática, los agentes no podrán descentralizarse en un largo período de tiempo. Desde el punto de vista de la construcción de agentes en el campo de la IA tradicional, no es un problema que se pueda resolver simplemente descentralizando y abriendo el proceso de razonamiento; necesita acceder a varias API para acceder al contenido de Web2, y su costo de operación es alto. El diseño de la cadena de pensamiento y la colaboración de múltiples agentes generalmente todavía dependen de un humano como intermediario. Pasaremos por un largo período de transición, hasta que surja una forma de fusión adecuada, quizás como UNI. Sin embargo, al igual que en el artículo anterior, sigo creyendo que los agentes tendrán un gran impacto en nuestra industria, como lo tiene la existencia de Cex en nuestro sector, que es incorrecta pero muy importante.

El artículo (Revisión de Agentes de IA) emitido por Stanford Microsoft el mes pasado describe en gran medida las aplicaciones de los agentes en la industria médica, máquinas inteligentes, y mundos virtuales. Además, en el apéndice de este artículo ya hay muchos casos de prueba de GPT-4 V participando como agentes en el desarrollo de juegos AAA de alto nivel.

No es necesario apresurarse demasiado en la velocidad de su combinación con la descentralización; prefiero que el primer rompecabezas que el agente complete sea la capacidad y velocidad desde abajo hacia arriba, ya que tenemos tantos restos de narrativas y un metaverso en blanco que necesita ser completado por él. En la etapa adecuada, consideraremos cómo hacerlo para que se convierta en el próximo UNI.

Referencias

La cadena de pensamiento que 'emerge' en modelos grandes, ¿qué tipo de capacidad es realmente? Autor: Neuro-Extreme

Un artículo que explica el Agente, la próxima parada del gran modelo. Autor: LinguaMind