Autor: Investigador de YBB Capital Zeke

 

Uno, el inicio de la novedad y el desdén por lo viejo

En el último año, debido a la interrupción de la narrativa en la capa de aplicación, que no puede igualar la velocidad de explosión de la infraestructura, el campo de las criptomonedas se ha convertido gradualmente en un juego por los recursos de atención. Desde Silly Dragon hasta Goat, desde Pump.fun hasta Clanker, la novedad y el desdén por lo viejo han llevado a esta batalla por la atención a una intensa competencia. Comenzando con la forma más típica de monetización de la atención, rápidamente evolucionó hacia un modelo de plataforma unificado entre demandantes y proveedores de atención, y luego hacia seres basados en silicio convirtiéndose en nuevos proveedores de contenido. En la variedad de vehículos extraños de Meme Coin, finalmente ha surgido algo que puede lograr un consenso entre los minoristas y los VC: el Agente AI.

La atención es, en última instancia, un juego de suma cero; sin embargo, la especulación puede estimular el crecimiento descontrolado de las cosas. En nuestro artículo sobre UNI, revisamos el inicio de la era dorada de blockchain, donde el crecimiento acelerado de DeFi provino de la era de minería LP inaugurada por Compound Finance, donde entrar y salir de diversos grupos de minería con APYs de miles e incluso decenas de miles era la forma más primitiva de juego en cadena de esa época, aunque la situación final fue un colapso de varios grupos de minería. Sin embargo, la locura de los mineros dorados realmente dejó una liquidez sin precedentes en blockchain, y DeFi finalmente escapó de la pura especulación para formar una pista madura, satisfaciendo las necesidades financieras de los usuarios en aspectos como pagos, transacciones, arbitraje y staking. El Agente AI, en esta etapa, también está experimentando esta fase salvaje; estamos explorando cómo Crypto puede fusionarse mejor con AI y, en última instancia, llevar la capa de aplicación a nuevas alturas.

Dos, ¿cómo puede un agente ser autónomo?

En el artículo anterior, introdujimos brevemente el origen del Meme AI: Truth Terminal, y la perspectiva futura del Agente AI; en este artículo, el enfoque es primero el Agente AI en sí mismo.

Empecemos desde la definición de Agente AI; un Agente es un término relativamente antiguo en el campo de la IA, pero no está claramente definido. Su énfasis principal es la autonomía, es decir, cualquier AI que pueda percibir el entorno y reaccionar se puede denominar Agente. En la definición actual, el Agente AI se acerca más a un agente inteligente, es decir, establecer un sistema que imite la toma de decisiones humanas en un gran modelo; en el ámbito académico, este sistema se considera la forma más prometedora de llegar a AGI (Inteligencia Artificial General).

En las versiones tempranas de GPT, podíamos percibir claramente que los grandes modelos eran muy similares a los humanos, pero al responder a muchas preguntas complejas, solo podían proporcionar respuestas que parecían correctas. La razón esencial es que los grandes modelos en ese momento se basaban en probabilidades en lugar de causalidad, además de que carecían de habilidades como el uso de herramientas, memoria, planificación, etc., las cuales el Agente AI puede complementar. Así que, en una fórmula, el Agente AI (智能体) = LLM (大模型) + Planificación (规划) + Memoria (记忆) + Herramientas (工具).

Los grandes modelos basados en palabras clave (Prompt) son más como una persona estática; solo cobran vida cuando ingresamos información. El objetivo del agente es ser una persona más real. Actualmente, los agentes en el sector se basan principalmente en modelos ajustados de Llama 70b o 405b de Meta (con diferentes parámetros) que tienen la capacidad de recordar y utilizar herramientas de conexión API. En otros aspectos, pueden necesitar la ayuda o entrada de humanos (incluyendo la colaboración e interacción con otros agentes), por lo que podemos ver que la mayoría de los agentes en el sector aún existen en forma de KOL en redes sociales. Para que un agente se asemeje más a un ser humano, necesita incorporar capacidades de planificación y acción, siendo la cadena de pensamiento un subelemento clave en la planificación.

Tres, cadena de pensamiento (Chain of Thought, CoT)

El concepto de cadena de pensamiento (Chain of Thought, CoT) apareció por primera vez en un artículo publicado por Google en 2022 (Chain-of-Thought Prompting Elicits Reasoning in Large Language Models), que señala que se puede mejorar la capacidad de razonamiento del modelo generando una serie de pasos intermedios de razonamiento, ayudando al modelo a entender y resolver mejor problemas complejos.

Un típico CoT Prompt contiene tres partes: descripción de tarea con instrucciones claras, base lógica que apoya la resolución de la tarea o fundamentos teóricos, y ejemplos de soluciones específicas. Esta estructura ayuda al modelo a entender los requisitos de la tarea, acercándose a la respuesta a través de razonamiento lógico, mejorando así la eficiencia y precisión en la resolución de problemas. El CoT es especialmente adecuado para tareas que requieren análisis profundo y razonamiento de múltiples pasos, como la resolución de problemas matemáticos, redacción de informes de proyectos, etc. En tareas sencillas, el CoT puede no ofrecer ventajas evidentes, pero en tareas complejas, puede mejorar significativamente el rendimiento del modelo, reduciendo la tasa de errores mediante estrategias de solución paso a paso y aumentando la calidad de la finalización de tareas.

Al construir un Agente AI, el CoT juega un papel clave; el Agente AI necesita entender la información recibida y tomar decisiones razonables en base a ella. El CoT proporciona un enfoque ordenado de pensamiento, ayudando al Agente a procesar y analizar la información de entrada de manera efectiva, convirtiendo los resultados del análisis en guías de acción concretas. Este método no solo mejora la fiabilidad y eficiencia de la toma de decisiones del Agente, sino que también aumenta la transparencia del proceso de toma de decisiones, haciendo que el comportamiento del Agente sea más predecible y rastreable. El CoT, al descomponer las tareas en varios pequeños pasos, ayuda al Agente a considerar cuidadosamente cada punto de decisión, reduciendo los errores de decisión causados por la sobrecarga de información. El CoT hace que el proceso de decisión del Agente sea más transparente, facilitando la comprensión por parte del usuario de la base de las decisiones del Agente. En la interacción con el entorno, el CoT permite que el Agente aprenda continuamente nueva información y ajuste su estrategia de comportamiento.

El CoT, como una estrategia efectiva, no solo mejora la capacidad de razonamiento de los grandes modelos de lenguaje, sino que también desempeña un papel importante en la construcción de agentes AI más inteligentes y confiables. Al utilizar CoT, investigadores y desarrolladores pueden crear sistemas inteligentes más adaptados a entornos complejos y con alta autonomía. El CoT ha mostrado sus ventajas únicas en aplicaciones prácticas, especialmente al manejar tareas complejas; al descomponer las tareas en una serie de pequeños pasos, no solo mejora la precisión en la resolución de tareas, sino que también aumenta la interpretabilidad y controlabilidad del modelo. Este enfoque de resolver problemas paso a paso puede reducir en gran medida los errores de decisión causados por la sobrecarga de información o la complejidad de enfrentar tareas complejas. Al mismo tiempo, este método también mejora la trazabilidad y verificabilidad de toda la solución.

La función central del CoT radica en combinar planificación, acción y observación, cerrando la brecha entre razonamiento y acción. Este modo de pensamiento permite al Agente AI formular estrategias efectivas al predecir posibles situaciones anómalas, así como acumular nueva información al interactuar con el entorno externo, verificando pronósticos previamente establecidos y proporcionando nuevas bases de razonamiento. El CoT actúa como un poderoso motor de precisión y estabilidad, ayudando al Agente AI a mantener una alta eficiencia de trabajo en entornos complejos.

Cuatro, demandas falsas correctas

¿Con qué aspectos de la pila tecnológica AI debería realmente combinarse Crypto? En un artículo del año pasado, creí que la descentralización del poder de cálculo y los datos era un paso clave para ayudar a pequeñas empresas y desarrolladores individuales a reducir costos, y este año, en la subdivisión Crypto x AI organizada por Coinbase, hemos visto una clasificación más detallada:

(1) Capa de cálculo (se refiere a la red enfocada en proporcionar recursos de unidad de procesamiento gráfico (GPU) para desarrolladores de AI);

(2) Capa de datos (se refiere a la red que apoya el acceso descentralizado, la orquestación y la verificación de los canales de datos de AI);

(3) Capa de middleware (se refiere a la plataforma o red que apoya el desarrollo, implementación y alojamiento de modelos o agentes de AI);

(4) Capa de aplicación (se refiere a productos orientados al usuario que utilizan mecanismos de AI en cadena, ya sean B2B o B2C).

En estas cuatro capas de clasificación, cada capa tiene una visión grandiosa, cuyo objetivo resumido es resistir la hegemonía de los gigantes de Silicon Valley en la próxima era de Internet. Como dije el año pasado, ¿realmente debemos aceptar que los gigantes de Silicon Valley controlen exclusivamente el poder de cálculo y los datos? En su monopolio, el gran modelo cerrado es una caja negra; la ciencia, como la religión más creída por la humanidad hoy, cada palabra que el gran modelo responda en el futuro será vista como verdad por una gran parte de las personas, pero ¿cómo se verificará esta verdad? Según la concepción de los gigantes de Silicon Valley, los permisos que finalmente poseerá el agente serán inimaginables, como el derecho a pagar desde tu billetera, el derecho a usar el terminal, ¿cómo asegurar que una persona no tenga malas intenciones?

La descentralización es la única respuesta, pero a veces, ¿no necesitamos considerar razonablemente cuántos son los que respaldan estas grandes visiones? En el pasado, podíamos compensar los errores traídos por la idealización a través de Tokens sin considerar el ciclo comercial. Sin embargo, la situación actual es muy grave; Crypto x AI necesita combinarse con la realidad para diseñar, por ejemplo, ¿cómo equilibrar la oferta en ambos extremos en la capa de potencia bajo condiciones de pérdida de rendimiento e inestabilidad? Para lograr la competitividad del centro de datos centralizados. ¿Cuántos usuarios reales habrá en los proyectos de la capa de datos, cómo verificar la veracidad y efectividad de los datos proporcionados, y qué tipo de clientes necesitan estos datos? El resto de las capas secundarias son análogas; en esta era no necesitamos tantas demandas falsas que parecen correctas.

Cinco, Meme ha corrido hacia SocialFi

Como mencioné en el primer párrafo, el Meme ya ha salido de manera ultra rápida, alineándose con la forma SocialFi de Web3. Friend.tech es la Dapp que disparó la primera bala en esta ronda de aplicaciones sociales, pero desafortunadamente cayó debido al diseño apresurado de su Token. Pump.fun ha validado la viabilidad de la pura plataforma, sin tokens ni reglas. Demandantes y proveedores de atención se unifican, puedes publicar memes, hacer transmisiones en vivo, emitir monedas, dejar mensajes, comerciar, todo es libre; Pump.fun solo cobra una tarifa de servicio. Esto es prácticamente consistente con el modelo de economía de atención de las redes sociales actuales como YouTube e Instagram, solo que la diferencia radica en los objetos de cobro; en términos de juego, Pump.fun es más Web3.

El Clanker de Base es un integrador, beneficiándose de un ecosistema integral elaborado por el propio ecosistema; Base tiene su propio Dapp social como apoyo, formando un ciclo interno completo. El Meme de Agente es la forma 2.0 de Meme Coin; las personas siempre buscan lo nuevo, y Pump.fun se encuentra justo en el centro de la atención, desde una perspectiva de tendencia, es solo cuestión de tiempo antes de que la fantasía de seres basados en silicio reemplace los memes vulgares de seres basados en carbono.

He mencionado a Base innumerables veces, solo que cada vez el contenido es diferente. En la línea de tiempo, Base nunca ha sido un pionero, pero siempre ha sido un ganador.

Seis, ¿qué más puede ser un agente?

Desde un punto de vista pragmático, los agentes no podrán descentralizarse en un largo período en el futuro; desde la perspectiva de la construcción de agentes en el campo de la AI tradicional, no es un problema simple que la descentralización y el código abierto puedan resolver, necesita conectar varias API para acceder al contenido de Web2, y sus costos operativos son altos. El diseño de la cadena de pensamiento y la colaboración entre múltiples agentes todavía dependen de un humano como mediador. Pasaremos por un largo período de transición hasta que surja una forma de fusión adecuada, tal vez como UNI. Pero al igual que en el artículo anterior, sigo creyendo que los agentes tendrán un gran impacto en nuestra industria, tal como la existencia de Cex en nuestra industria, que es incorrecta pero importante.

El artículo (Resumen de Agentes AI) publicado el mes pasado por Stanford y Microsoft describe ampliamente la aplicación de agentes en la industria médica, máquinas inteligentes y mundos virtuales. En el apéndice de este artículo ya hay muchos casos de prueba donde GPT-4V participa como agente en el desarrollo de juegos AAA de primer nivel.

No es necesario apresurarse en la velocidad de su combinación con la descentralización; prefiero que el primer rompecabezas que complete el agente sea su capacidad y velocidad de abajo hacia arriba. Tenemos tantos escombros narrativos y un metaverso vacío que necesita ser llenado, y en la etapa adecuada consideraremos cómo hacerlo llegar a ser el próximo UNI.

 

Referencias

La cadena de pensamiento 'emergente' de grandes modelos, ¿qué tipo de capacidad es? Autor: Cerebro Extremo

Un artículo para entender al Agente, la próxima parada de los grandes modelos. Autor: LinguaMind