Si AIGC ha abierto una era de generación de contenido inteligente, entonces AI Agent tiene la oportunidad de producir verdaderamente las capacidades de AIGC.

AI Agent es como un empleado integral más concreto, que se denomina la forma primaria de robot de inteligencia artificial. Puede observar el entorno circundante, tomar decisiones y realizar acciones automáticamente como los humanos.

Bill Gates dijo una vez sin rodeos: "Controlar el agente de IA es el verdadero logro. Para entonces, ya no necesitará buscar información en línea usted mismo. Los expertos autorizados en el campo de la IA también tienen grandes esperanzas en las perspectivas de la IA". Agentes. El director ejecutivo de Microsoft, Satya Nadella, predijo una vez que AI Agent se convertirá en el principal método de interacción entre humanos y computadoras, capaz de comprender las necesidades de los usuarios y brindar servicios de manera proactiva. El profesor Ng Enda también predice que en el futuro entorno laboral, los humanos y los agentes de IA colaborarán más estrechamente para formar modelos de trabajo eficientes y mejorar la eficiencia.

AI Agent no es solo un producto de la tecnología, sino también el núcleo de la forma de vida y de trabajo del futuro.

Esto nos recuerda que cuando Web3 y blockchain suscitaron por primera vez un amplio debate, la gente solía utilizar la palabra "disrupción" para describir el potencial de esta tecnología. Mirando hacia atrás en los últimos años, Web3 se ha desarrollado gradualmente desde el ERC-20 inicial y la prueba de conocimiento cero hasta DeFi, DePIN, GameFi, etc., que se integran con otros campos.

Si combinamos Web3 y AI, dos tecnologías digitales populares, ¿habrá un efecto 1+ 1>2? ¿Puede el proyecto Web3 AI, con su escala de financiación cada vez mayor, aportar nuevos paradigmas de casos de uso a la industria y crear nuevas necesidades reales?

Agente AI: el asistente inteligente más ideal para la humanidad

¿Dónde está la imaginación del Agente AI? Hay una respuesta de alta puntuación que circula ampliamente en Internet: "El modelo de lenguaje grande solo puede programar una serpiente codiciosa, pero el Agente de IA puede programar un Rey de Gloria completo". Suena exagerado, pero no lo es.

Agente suele traducirse como "cuerpo inteligente" en China. Este concepto fue propuesto por Minsky, el "padre de la inteligencia artificial", en su libro "La sociedad del pensamiento" publicado en 1986. Minsky creía que ciertos individuos de la sociedad pueden encontrar una solución a un determinado problema después de la negociación. son Agentes. Los agentes han sido la piedra angular de la interacción persona-computadora durante muchos años, desde el asistente de edición Clippy de Microsoft hasta las sugerencias automáticas de Google Docs. Estas primeras formas de agentes han demostrado el potencial para la interacción personalizada, pero su capacidad para manejar tareas más complejas aún es limitada. . No fue hasta la aparición de grandes modelos de lenguaje (LLM) que se pudo aprovechar el verdadero potencial de los Agentes.

En mayo de este año, el profesor Andrew Ng, un académico autorizado en el campo de la IA, compartió un discurso sobre AI Agent en el evento Sequoia AI en los Estados Unidos, en el que mostró una serie de experimentos realizados por su equipo:

Deje que la IA escriba algo de código, lo ejecute y compare los resultados de diferentes LLM y flujos de trabajo. El resultado es el siguiente:

  • Modelo GPT-3.5: precisión 48%

  • Modelo GPT-4: precisión 67%

  • GPT-3.5 + Agente: mayor rendimiento que el modelo GPT-4

  • GPT-4+ Agent: mucho mayor que el modelo GPT-4, muy bueno

en efecto. Cuando la mayoría de las personas usan un LLM como ChatGPT, generalmente ingresan una palabra rápida y el modelo grande generará inmediatamente una respuesta sin identificar ni corregir errores, eliminarlos ni reescribirlos automáticamente.

En comparación, el flujo de trabajo del Agente AI se ve así:

Primero, deje que el LLM escriba un resumen del artículo. Si es necesario, primero busque el contenido en Internet para investigarlo y analizarlo, genere un primer borrador y luego lea el borrador y piense en cómo optimizarlo. Este ciclo se repite durante muchas iteraciones. y finalmente genera un artículo lógico y riguroso. Artículos de alta calidad con la tasa de error más baja.

Podemos encontrar que la diferencia entre AI Agent y LLM es que la interacción entre LLM y humanos se basa en palabras rápidas (prompt). El agente de IA solo necesita establecer un objetivo y puede pensar de forma independiente y actuar en consecuencia. Divida cada paso del plan en detalle según la tarea asignada y confíe en la retroalimentación del mundo exterior y el pensamiento independiente para crear indicaciones para lograr sus objetivos.

Por lo tanto, la definición de OpenAI de AI Agent es: un sistema impulsado por LLM como cerebro, con la capacidad de comprender de forma autónoma la percepción, la planificación, la memoria y el uso de herramientas, y puede ejecutar automáticamente tareas complejas.

Cuando la IA cambia de una herramienta que se utiliza a un sujeto que puede usar la herramienta, se convierte en un Agente de IA. Es por eso que AI Agent puede convertirse en el asistente inteligente más ideal para la humanidad. Por ejemplo, AI Agent puede comprender y recordar los intereses, preferencias y hábitos diarios del usuario en función de las interacciones históricas en línea del usuario, identificar las intenciones del usuario, hacer sugerencias de manera proactiva y coordinar múltiples aplicaciones para completar tareas.

Al igual que en la visión de Gates, en el futuro ya no necesitaremos cambiar a diferentes aplicaciones para diferentes tareas. Solo necesitamos usar un lenguaje común para decirle a las computadoras y teléfonos móviles lo que queremos hacer en función de los datos que los usuarios estén dispuestos. para compartir, AI Agent proporcionará una respuesta personalizada.

Los unicornios unipersonales se hacen realidad

AI Agent también puede ayudar a las empresas a crear un nuevo modelo operativo inteligente con la "colaboración hombre-máquina" como núcleo. La IA completará cada vez más actividades comerciales, mientras que los humanos solo tendrán que centrarse en la visión corporativa, la estrategia y las decisiones de ruta crítica.

Así como el CEO de OpenAI, Sam Altman, mencionó una vez un punto tan convincente en una entrevista, con el desarrollo de la IA, estamos a punto de entrar en la era de los "unicornios unipersonales", es decir, empresas fundadas por una sola persona y que alcanzan los mil millones. La empresa está valorada en dólares estadounidenses.

Parece una fantasía, pero con la ayuda de los agentes de IA, esta idea se está haciendo realidad.

Digamos que queremos lanzar una startup tecnológica. Con el enfoque tradicional, obviamente necesitaría contratar ingenieros de software, gerentes de producto, diseñadores, especialistas en marketing, personal de ventas y finanzas, todos haciendo sus propias cosas pero coordinados por mí.

Entonces, ¿qué pasa si uso AI Agent, es posible que ni siquiera necesite contratar empleados?

  • Devin - Programación de automatización

En lugar de un ingeniero de software, podría utilizar a Devin, un ingeniero de software de inteligencia artificial que se ha disparado este año y que puede ayudarme a completar todo el trabajo de front-end y back-end.

Devin fue desarrollado por Cognition Labs y está considerado como "el primer ingeniero de software de inteligencia artificial del mundo". Puede completar todo el trabajo de desarrollo de software de forma independiente, analizar problemas, tomar decisiones, escribir código y corregir errores de forma independiente, todo lo cual se puede ejecutar de forma independiente. Esto reduce en gran medida la carga de trabajo de los desarrolladores. Devin recibió 196 millones de dólares en financiación en sólo seis meses y su valoración se disparó rápidamente a miles de millones de dólares. Entre los inversores se incluyen conocidas firmas de capital de riesgo como Founders Fund y Khosla Ventures.

Aunque Devin todavía no ha lanzado una versión pública, podemos vislumbrar el potencial de Cursor, otro producto Web2 recientemente popular. Hace casi todo el trabajo por usted, convirtiendo una idea simple en código funcional en minutos. Sólo necesita dar la orden y "sentarse y disfrutar de los resultados". Hay informes de que un niño de ocho años, sin ninguna experiencia en programación, utilizó Cursor para completar el trabajo de codificación y crear un sitio web.

  • Hebbia - procesamiento de archivos

En lugar de un gerente de producto o un encargado de finanzas, probablemente elegiría a Hebbia, que hace toda la clasificación y análisis de documentos por mí.

A diferencia de Glean, que se centra en la búsqueda de documentos dentro de la empresa, Hebbia Matrix es una plataforma de agentes de IA de nivel empresarial que utiliza múltiples modelos de IA para ayudar a los usuarios a extraer, estructurar y analizar datos y documentos de manera eficiente, promoviendo así la mejora de la productividad empresarial. . Es impresionante la cantidad de millones de documentos que Matrix puede manejar a la vez.

Hebbia completó una ronda Serie B de 130 millones de dólares en julio de este año, liderada por a16z, con la participación de inversores de renombre como Google Ventures y Peter Thiel.

  • Jasper AI: generación de contenido

En lugar de diseñadores y operaciones de redes sociales, podría elegir Jasper AI, que puede ayudarme a generar contenido.

Jasper AI es un asistente de redacción de AI Agent diseñado para ayudar a los creadores, especialistas en marketing y empresas a optimizar el proceso de generación de contenido y aumentar la productividad y la eficiencia creativa. Jasper AI puede generar muchos tipos de contenido según el estilo solicitado por el usuario, incluidas publicaciones de blogs, publicaciones en redes sociales, textos publicitarios, descripciones de productos y más. Y genere imágenes basadas en descripciones de usuarios para proporcionar ayudas visuales para el contenido de texto.

Jasper AI ha recaudado 125 millones de dólares en financiación y alcanzó una valoración de 1.500 millones de dólares en 2022. Según las estadísticas, Jasper AI ha ayudado a los usuarios a generar más de 500 millones de palabras, lo que la convierte en una de las herramientas de escritura de IA más utilizadas.

  • MultiOn — Automatización de páginas web

En lugar de un asistente, podría elegir MultiOn para que me ayude a administrar las tareas diarias, organizar horarios, establecer recordatorios e incluso planificar viajes de negocios, reservar hoteles automáticamente y organizar automáticamente viajes compartidos en línea.

MultiOn es un agente de IA automatizado de tareas de red que puede ayudar a realizar tareas de forma autónoma en cualquier entorno digital, como ayudar a los usuarios a completar tareas personales como compras en línea y programar citas para mejorar la eficiencia personal, o ayudar a los usuarios a simplificar las tareas diarias y mejorar la eficiencia en el trabajo.

  • Perplejidad: búsqueda, investigación

En lugar de un investigador, probablemente elegiría Perplexity, que el CEO de NVIDIA usa todos los días.

Perplexity es un motor de búsqueda de inteligencia artificial que comprende las preguntas de los usuarios, las desglosa, luego busca y agrega contenido y genera informes para brindarles respuestas claras.

La perplejidad es adecuada para varios grupos de usuarios, por ejemplo, los estudiantes e investigadores pueden simplificar el proceso de recuperación de información al escribir y mejorar la eficiencia, los especialistas en marketing pueden obtener datos confiables para respaldar las estrategias de marketing.

El contenido anterior es solo imaginación. Las capacidades y niveles reales de estos agentes de IA aún no son suficientes para reemplazar los talentos de élite en todos los ámbitos de la vida. Como dijo Li Bojie, cofundador de Logenic AI, las capacidades actuales de LLM son solo de nivel básico y están lejos del nivel experto. El agente de IA actual se parece más a un empleado que trabaja rápido pero no es muy confiable.

Sin embargo, con sus respectivas especialidades, estos agentes de IA están ayudando a los usuarios existentes a mejorar la eficiencia y la conveniencia en diversos escenarios.

No sólo las empresas de tecnología, todos los ámbitos de la vida pueden beneficiarse de la ola de agentes de IA. En el campo de la educación, AI Agent puede proporcionar recursos de aprendizaje personalizados y tutoría basados ​​en el progreso de aprendizaje, los intereses y las habilidades de los estudiantes. En el campo de las finanzas, AI Agent puede ayudar a los usuarios a administrar sus finanzas personales, brindar consejos de inversión e incluso predecir tendencias bursátiles; en el campo médico, AI Agent puede ayudar a los médicos a diagnosticar enfermedades y formular planes de tratamiento; en el campo del comercio electrónico, AI Agent también puede servir como servicio al cliente inteligente, respondiendo automáticamente las consultas de los usuarios, manejando problemas con pedidos y solicitudes de devolución a través del lenguaje natural. Tecnología de procesamiento y aprendizaje automático. Mejorar la eficiencia del servicio al cliente.

Multiagente: el siguiente paso para los agentes de IA

En la idea de la sección anterior de una empresa unicornio unipersonal, un único agente de IA enfrenta limitaciones al manejar tareas complejas y es difícil satisfacer las necesidades reales. Cuando se utilizan múltiples agentes de IA, dado que estos agentes de IA se basan en LLM heterogéneos, la toma de decisiones colectiva es difícil y sus capacidades son limitadas, por lo que se requieren humanos que actúen como programadores entre estos agentes de IA independientes para coordinar estos agentes de IA que sirven a diferentes escenarios de aplicaciones. Ve a trabajar. Esto dio lugar al surgimiento del "Multi Agent (marco de múltiples agentes)".

Los problemas complejos a menudo requieren la integración de múltiples aspectos de conocimientos y habilidades, y un solo agente de IA tiene capacidades limitadas y es difícil de manejar. Al combinar orgánicamente agentes de IA con diferentes capacidades, el sistema multiagente permite a los agentes de IA aprovechar sus respectivas fortalezas y aprender de las fortalezas de los demás para resolver problemas complejos de manera más efectiva.

Esto es muy similar a nuestro proceso de trabajo o estructura organizacional real: un líder asigna tareas y personas con diferentes habilidades son responsables de diferentes tareas. Los resultados de cada proceso se pasan al siguiente proceso y finalmente se obtienen los resultados finales de la tarea. .

En el proceso de implementación, los agentes de IA de nivel inferior realizan sus respectivas tareas, mientras que los agentes de IA de nivel superior asignan tareas y supervisan su finalización.

Multi-Agent también puede simular nuestro proceso humano de toma de decisiones. Al igual que cuando encontramos problemas, buscaremos el consejo de otros. Múltiples agentes de IA también pueden simular el comportamiento de toma de decisiones colectiva y brindarnos un mejor soporte de información. Por ejemplo, AutoGen desarrollado por Microsoft cumple con este requisito:

  • Capacidad para crear agentes de IA con diferentes roles. Estos agentes de IA tienen capacidades conversacionales básicas y pueden generar respuestas basadas en los mensajes recibidos.

  • Utilice GroupChat para crear un entorno de chat grupal que involucre a varios agentes de IA. En este GroupChat, un agente de IA con función de administrador administra los registros de chat, el orden de los oradores, la terminación de la voz, etc. de otros agentes de IA.

Si se aplica a la idea de una empresa unicornio unipersonal, podemos crear varios Agentes de IA con diferentes roles a través de la arquitectura Multi-Agente, como jefes de proyecto, programadores o supervisores. Dígales nuestros objetivos y déjeles descubrir cómo hacerlo. Solo necesitamos escuchar el informe si sentimos que tenemos alguna objeción o si hacen algo mal, que lo cambien hasta que estemos satisfechos.

En comparación con un único agente de IA, el agente múltiple puede lograr:

  • Escalabilidad: maneje problemas de mayor escala aumentando la cantidad de agentes de IA, cada uno de los cuales maneja una parte de la tarea, lo que permite que el sistema escale a medida que crece la demanda.

  • Paralelismo: naturalmente admite el procesamiento paralelo, múltiples agentes de IA pueden trabajar en diferentes partes del problema al mismo tiempo, acelerando así la resolución del problema.

  • Mejora de decisiones: mejore la toma de decisiones agregando conocimientos de múltiples agentes de IA, cada uno con su propia perspectiva y experiencia.

A medida que la tecnología de IA continúa avanzando, es concebible que el marco de agentes múltiples desempeñe un papel más importante en más industrias y promueva el desarrollo de varias soluciones nuevas impulsadas por IA.

El viento de AI Agent sopla hacia Web3

Al salir del laboratorio, AI Agent y Multi-Agent tienen un largo camino por recorrer.

Independientemente del agente múltiple, incluso el agente de IA más avanzado tiene actualmente un límite superior claro en los recursos informáticos y la potencia informática que requiere a nivel físico, y no se puede ampliar infinitamente. Una vez que se enfrente a tareas extremadamente complejas y computacionalmente intensivas, el Agente de IA sin duda encontrará un cuello de botella en la potencia informática y su rendimiento se reducirá considerablemente.

Además, los sistemas AI Agent y Multi-Agent son esencialmente un modelo de arquitectura centralizada, lo que determina que tienen un riesgo muy alto de falla única. Más importante aún, los modelos de negocio monopolísticos de OpenAI, Microsoft, Google y otras empresas basados ​​en grandes modelos de código cerrado amenazan seriamente el entorno de supervivencia de las nuevas empresas de agentes de IA independientes y únicos, haciendo imposible que los agentes de IA utilicen con éxito enormes cantidades de datos privados corporativos para hazlos volverse más inteligentes y más eficientes. Existe una necesidad urgente de un entorno de colaboración democrático entre agentes de IA, de modo que agentes de IA verdaderamente valiosos puedan atender a una gama más amplia de personas con necesidades y crear mayor valor para la sociedad.

Finalmente, aunque AI Agent está más cerca de la industria que LLM, su desarrollo se basa en LLM. Sin embargo, la gran pista de modelos actual se caracteriza por un alto umbral técnico, una gran inversión de capital y modelos comerciales inmaduros que generalmente son difíciles de obtener. Financiamiento para continuar actualizándose e iterando.

El paradigma de agentes múltiples es un ángulo excelente para que Web3 ayude a la IA. Muchos equipos de desarrollo de Web3 ya están invirtiendo en investigación y desarrollo para brindar soluciones en estas áreas.

Los sistemas AI Agent y Multi-Agent a menudo requieren grandes cantidades de recursos informáticos para realizar tareas complejas de procesamiento y toma de decisiones. Web3 puede construir un mercado de potencia informática descentralizado a través de blockchain y tecnología descentralizada, de modo que los recursos de potencia informática puedan distribuirse y utilizarse de manera más justa y eficiente a escala global. Los proyectos Web3 como Akash, Nosana, Aethir e IO.net pueden proporcionar potencia informática para la toma de decisiones y el razonamiento de los agentes de IA.

Los sistemas de IA tradicionales a menudo se administran de manera centralizada, lo que hace que los agentes de IA enfrenten puntos únicos de falla y problemas de privacidad de datos. La naturaleza descentralizada de Web3 puede hacer que el sistema multiagente sea más descentralizado y autónomo. Cada agente de IA puede ejecutarse de forma independiente en diferentes. En los servidores, los requisitos planteados por los usuarios se ejecutan de forma autónoma, lo que mejora la robustez y la seguridad. Establecer mecanismos de incentivos y castigos para los que prometen y delegan a través de PoS, DPoS y otros mecanismos puede promover la democratización de los sistemas de agente único o de múltiples agentes.

En este sentido, GaiaNet, Theoriq, PIN AI y HajimeAI tienen intentos muy vanguardistas.

  • Theoriq es un proyecto que sirve a "AI para Web3". Espera establecer un sistema económico y de llamadas para agentes de IA a través del protocolo Agentic, popularizar el desarrollo de Web3 y muchos escenarios funcionales, y proporcionar capacidades de razonamiento de modelos verificables para Web3 dApps.

  • GaiaNet es un entorno de creación e implementación de agentes de IA basado en nodos, cuyo punto de partida es proteger la propiedad intelectual y la privacidad de los datos de expertos y usuarios, para competir con la tienda centralizada OpenAI GPT.

  • HajimeAI se basa en los dos para establecer flujos de trabajo de agentes de IA basados ​​en las necesidades reales y para inteligenteizar y automatizar la intención en sí, haciéndose eco de la "personalización de la inteligencia de IA" mencionada por PIN AI.

  • Al mismo tiempo, Modulus Labs y ORA Protocol han avanzado en la dirección del algoritmo de zkML y opML de AI Agent, respectivamente.

Finalmente, el desarrollo y la iteración de los sistemas AI Agent y Multi-Agent a menudo requieren una gran cantidad de apoyo financiero, y Web3 puede ayudar a posibles proyectos de AI Agent a obtener un valioso apoyo temprano a través de la característica de liquidez anticipada.

Tanto Spectral como HajimeAI han propuesto conceptos de productos que respaldan la emisión de activos de agentes de IA en la cadena: al emitir tokens a través de IAO (oferta inicial de agente), los agentes de IA pueden obtener fondos directamente de los inversores y, al mismo tiempo, convertirse en miembros de DAO. gobernanza, brindando a los inversores la oportunidad de participar en el desarrollo del proyecto y compartir las ganancias futuras. Entre ellos, Benchmark DAO de HajimeAI espera combinar orgánicamente la puntuación descentralizada de AI Agent y la emisión de activos de AI Agent a través de crowdfunding e incentivos simbólicos para crear un circuito cerrado de AI Agent que dependa de la financiación Web3 y el arranque en frío, lo que también es un intento relativamente novedoso.

Se ha abierto la Caja de Pandora de la IA y todos en ella están emocionados y confundidos. Nadie sabe si la locura es una oportunidad o un peligro oculto. Hoy en día, todos los ámbitos de la vida ya no están en la era del financiamiento PPT. No importa cuán avanzada sea la tecnología, el valor solo se puede obtener cuando se implementa. El futuro de AI Agent está destinado a ser un largo maratón, y Web3 se asegura de que no se desvanezca en esta carrera.