Autor: Investigador de YBB Capital, Zeke

Uno, comienza con el capricho de la atención

En el último año, debido a la desconexión en la narrativa de la capa de aplicación, no se ha podido igualar la velocidad de explosión de la infraestructura, el campo de la criptografía se ha convertido gradualmente en un juego de recursos de atención. Desde Silly Dragon hasta Goat, desde Pump.fun hasta Clanker, el capricho de la atención ha llevado a esta batalla por la atención a una espiral interna. Comenzando con la forma más banal de atraer atención para monetizar, rápidamente evolucionó hacia un modelo de plataforma donde se unifican los demandantes y proveedores de atención, hasta que los biológicos basados en silicio se convierten en nuevos proveedores de contenido. En los extraños vehículos de Meme Coin, finalmente ha surgido algo que puede lograr un consenso entre minoristas y VC: AI Agent.

La atención es, en última instancia, un juego de suma cero, aunque la especulación puede impulsar el crecimiento desmesurado de las cosas. En nuestro artículo sobre UNI, revisamos el comienzo de la última era dorada de blockchain; el rápido crecimiento de DeFi se originó en la era de la minería de LP iniciada por Compound Finance. Entrar y salir de varios grupos de minería con tasas de APY de miles o incluso decenas de miles fue la forma más primitiva de juego en la cadena durante ese período, aunque la situación final fue que varios grupos de minería colapsaron. La locura de los mineros de oro, sin embargo, realmente dejó una liquidez sin precedentes en blockchain, y DeFi finalmente escapó de la pura especulación para formar una pista madura, satisfaciendo las necesidades financieras de los usuarios en aspectos como pagos, transacciones, arbitraje y staking. En esta etapa, AI Agent también está experimentando esta fase salvaje, y estamos explorando cómo Crypto puede fusionarse mejor con la IA y, finalmente, llevar a la capa de aplicaciones a nuevas alturas.

Dos, ¿cómo es que el agente puede ser autónomo?

En el artículo anterior, hicimos una breve introducción sobre el origen de AI Meme: Truth Terminal, y la visión futura de AI Agent. Este artículo se centra primero en el propio AI Agent.

Comencemos hablando de la definición de AI Agent. 'Agente' es un término que ha existido durante mucho tiempo en el campo de la IA, pero su definición no es precisa. Se enfatiza principalmente en la autonomía, es decir, cualquier IA que pueda percibir el entorno y reaccionar se puede llamar agente. En la definición actual, AI Agent se acerca más a los agentes inteligentes, es decir, establecer un sistema que imite la toma de decisiones humanas para el gran modelo. En la academia, este sistema se considera el más prometedor en el camino hacia la AGI (inteligencia artificial general).

En las primeras versiones de GPT, pudimos sentir que el gran modelo era muy humano, pero al responder muchas preguntas complejas, el gran modelo solo podía dar respuestas vagamente correctas. La razón esencial es que el gran modelo de aquel entonces se basaba en probabilidades y no en causalidad, y además carecía de habilidades como el uso de herramientas, memoria y planificación que posee el ser humano. El AI Agent puede compensar estas deficiencias. Por lo tanto, se puede resumir con una fórmula: AI Agent (agente inteligente) = LLM (gran modelo) + Planificación + Memoria + Herramientas.

Los grandes modelos basados en prompts (prompt) son más como una persona estática; solo cobran vida cuando los introducimos. El objetivo del agente es ser una persona más real. Actualmente, los agentes en el círculo están principalmente basados en el modelo ajustado de Llama 70b o 405b de Meta (con diferentes parámetros), que tiene la capacidad de memoria y de utilizar herramientas de API, pero en otros aspectos puede necesitar la ayuda o entrada humana (incluida la interacción y colaboración con otros agentes). Por lo tanto, podemos ver que los principales agentes en la actualidad existen en las redes sociales en forma de KOL. Para hacer que el agente se asemeje más a una persona, es necesario incorporar capacidades de planificación y acción, siendo la cadena de pensamiento un elemento particularmente clave en la planificación.

Tres, cadena de pensamiento (Chain of Thought, CoT)

El concepto de cadena de pensamiento (Chain of Thought, CoT) apareció por primera vez en un artículo publicado por Google en 2022 (Chain-of-Thought Prompting Elicits Reasoning in Large Language Models), que señala que se puede mejorar la capacidad de razonamiento del modelo generando una serie de pasos de razonamiento intermedios, ayudando al modelo a entender y resolver problemas complejos de manera más efectiva.

Un prompt típico de CoT incluye tres partes: descripción de la tarea con instrucciones claras, fundamentos lógicos que respaldan la resolución de la tarea, y ejemplos de soluciones específicas. Esta estructura ayuda al modelo a entender los requisitos de la tarea y, a través del razonamiento lógico, se aproxima gradualmente a la respuesta, mejorando así la eficiencia y precisión en la resolución de problemas. CoT es especialmente adecuado para tareas que requieren análisis profundo y razonamiento de múltiples pasos, como la resolución de problemas matemáticos y la redacción de informes de proyectos. En tareas simples, CoT puede no presentar ventajas evidentes, pero en tareas complejas, puede mejorar significativamente el desempeño del modelo, reduciendo la tasa de errores y aumentando la calidad de la finalización de la tarea.

Al construir un AI Agent, CoT desempeña un papel clave, ya que el AI Agent necesita comprender la información recibida y tomar decisiones razonables basadas en ella. CoT, al proporcionar un modo de pensamiento ordenado, ayuda al agente a procesar y analizar efectivamente la información de entrada, transformando los resultados del análisis en guías de acción concretas. Este método no solo mejora la fiabilidad y eficiencia de las decisiones del agente, sino que también aumenta la transparencia del proceso de toma de decisiones, haciendo que el comportamiento del agente sea más predecible y rastreable. CoT, al dividir tareas en múltiples pasos pequeños, ayuda al agente a considerar cuidadosamente cada punto de decisión, reduciendo las decisiones erróneas causadas por la sobrecarga de información. CoT hace que el proceso de toma de decisiones del agente sea más transparente, facilitando la comprensión de los usuarios sobre las bases de las decisiones del agente. En la interacción con el entorno, CoT permite al agente aprender continuamente nueva información y ajustar su estrategia de comportamiento.

CoT, como una estrategia efectiva, no solo mejora la capacidad de razonamiento de los modelos de lenguaje grandes, sino que también desempeña un papel importante en la construcción de agentes de IA más inteligentes y confiables. Al utilizar CoT, los investigadores y desarrolladores pueden crear sistemas inteligentes que se adapten mejor a entornos complejos y tengan un alto grado de autonomía. CoT ha demostrado sus ventajas únicas en aplicaciones prácticas, especialmente en el manejo de tareas complejas, al descomponer tareas en una serie de pasos pequeños, lo que no solo mejora la precisión en la resolución de tareas, sino que también aumenta la interpretabilidad y controlabilidad del modelo. Este enfoque de resolver problemas de manera gradual puede reducir significativamente la toma de decisiones erróneas debido a la sobrecarga de información o la complejidad. Además, este método mejora la trazabilidad y verificabilidad de toda la solución.

La función central de CoT radica en combinar planificación, acción y observación, cerrando la brecha entre el razonamiento y la acción. Este modo de pensamiento permite que el AI Agent desarrolle estrategias efectivas al predecir anomalías potenciales y, al mismo tiempo, acumule nueva información al interactuar con el entorno, validando predicciones preestablecidas y proporcionando nuevas bases para el razonamiento. CoT es como un potente motor de precisión y estabilidad, que ayuda al AI Agent a mantener eficiencia operativa en entornos complejos.

Cuatro, la demanda ficticia correcta

¿Con qué aspectos de la pila tecnológica de IA debe fusionarse Crypto? En el artículo del año pasado, creí que la descentralización de la potencia de cálculo y los datos era un paso clave para ayudar a pequeñas empresas y desarrolladores individuales a reducir costos, y este año, en el desglose de Crypto x AI que organizó Coinbase, hemos visto una clasificación más detallada:

(1) Capa de cálculo (se refiere a redes centradas en proporcionar recursos de unidades de procesamiento gráfico (GPU) para desarrolladores de IA);

(2) Capa de datos (se refiere a redes que apoyan el acceso descentralizado, la orquestación y la validación de los datos de IA);

(3) Capa de middleware (se refiere a plataformas o redes que apoyan el desarrollo, despliegue y alojamiento de modelos o agentes de IA);

(4) Capa de aplicación (se refiere a productos orientados al usuario que utilizan mecanismos de IA en la cadena, ya sea B2B o B2C).

En estas cuatro capas de clasificación, cada capa tiene una gran visión, cuyo objetivo es, en resumen, contrarrestar la dominación de los gigantes de Silicon Valley en la próxima era de Internet. Como dije el año pasado, ¿realmente debemos aceptar que los gigantes de Silicon Valley controlen exclusivamente la potencia de cálculo y los datos? En el modelo de gran escala de código cerrado bajo su monopolio, su interior es una caja negra. La ciencia, como la religión más creída por la humanidad hoy en día, cada palabra que responda el gran modelo en el futuro será vista como verdad por una gran parte de las personas, pero ¿cómo se verifica esta verdad? Según la visión de los gigantes de Silicon Valley, los permisos finales que tendrá el agente serán inimaginables, como tener el derecho de pago de tu billetera, el derecho a usar el terminal, ¿cómo garantizar que la gente no tenga malas intenciones?

La descentralización es la única respuesta, pero a veces, ¿necesitamos considerar razonablemente cuántos son los que comprarán estas grandes visiones? En el pasado, podíamos omitir el ciclo comercial y compensar el error que trae la idealización a través de tokens. Sin embargo, la situación actual es muy severa, Crypto x AI necesita combinarse con la realidad para su diseño, por ejemplo, ¿cómo equilibrar ambas partes en la capa de potencia de cálculo cuando hay pérdidas de rendimiento y falta de estabilidad? Para lograr la competitividad de la nube centralizada. ¿Cuántos usuarios reales tendrá realmente la capa de datos, cómo se verifica la veracidad y efectividad de los datos proporcionados, y qué tipo de clientes necesitan estos datos? Las otras capas siguen la misma lógica, en esta era no necesitamos tantas demandas ficticias que parecen correctas.

Cinco, Meme ha salido de SocialFi

Como mencioné en el primer párrafo, Meme ha salido de manera súper rápida, formando una forma de SocialFi que cumple con Web3. Friend.tech es el Dapp que dispara la primera bala de esta ronda de aplicaciones sociales, pero lamentablemente, ha fracasado debido al diseño apresurado del token. Pump.fun ha validado la viabilidad de la pura plataforma, sin hacer ningún token, sin hacer ninguna regla. Los demandantes y proveedores de atención se unifican, puedes publicar memes, hacer transmisiones en vivo, emitir monedas, dejar comentarios, comerciar, todo es libre, Pump.fun solo cobra una tarifa de servicio. Esto es prácticamente consistente con el modelo de economía de atención de las redes sociales actuales como YouTube e Instagram, solo que el objeto de cobro es diferente, en el aspecto de juego Pump.fun es más Web3.

El Clanker de Base es un integrador, beneficiándose de la integración ecológica que la propia ecología ha implementado. Base tiene su propia Dapp social como apoyo, formando un ciclo interno completo. El Meme del agente inteligente es la forma 2.0 de Meme Coin, las personas siempre buscan lo nuevo, y Pump.fun se encuentra justo en el centro de la atención mediática. Desde una perspectiva de tendencia, es solo cuestión de tiempo que la locura de los biológicos basados en silicio reemplace los memes vulgares de los biológicos basados en carbono.

He mencionado Base innumerables veces, solo que el contenido mencionado cada vez es diferente. En la línea del tiempo, Base nunca ha sido el primero en aparecer, pero siempre es el ganador.

Seis, ¿qué más puede ser un agente inteligente?

Desde un punto de vista pragmático, los agentes no podrán ser descentralizados durante un largo tiempo en el futuro. Desde la perspectiva de la construcción de agentes en el campo de la IA tradicional, no es un problema que se pueda resolver simplemente con un proceso de razonamiento descentralizado y de código abierto. Necesita acceder a diversas API para acceder al contenido de Web2, y su costo operativo es muy alto. El diseño de la cadena de pensamiento y la colaboración de múltiples agentes suelen depender de un humano como mediador. Pasaremos por un largo período de transición hasta que aparezca una forma de fusión adecuada, quizás similar a UNI. Pero, como en el artículo anterior, sigo creyendo que los agentes tendrán un gran impacto en nuestra industria, tal como la existencia de Cex en nuestra industria, incorrecta pero importante.

El artículo enviado el mes pasado por Stanford y Microsoft (Resumen de AI Agent) describe ampliamente las aplicaciones de agentes en la industria médica, máquinas inteligentes y mundos virtuales. En el apéndice de este artículo ya hay muchos casos de prueba en los que GPT-4V participa como agente en el desarrollo de juegos AAA de primera línea.

No es necesario forzar demasiado la velocidad de su combinación con la descentralización; prefiero que el primer rompecabezas que complete el agente sea la capacidad y velocidad de abajo hacia arriba. Tenemos tantas ruinas narrativas y un metaverso vacío que necesita ser llenado, y en la etapa adecuada, consideraremos cómo hacerlo para que se convierta en el próximo UNI.

 

Referencias

La cadena de pensamiento 'emergente' del gran modelo, ¿qué capacidad es realmente? Autores: Cerebro extremo

Una comprensión completa de Agent, el próximo paso para grandes modelos Autores: LinguaMind