Fuente de reimpresión del artículo: Blockchain en lenguaje sencillo

Autor: Rituals

Traducción: Blockchain en lenguaje sencillo

En los últimos años, el concepto de agente ha cobrado importancia en varios campos como la filosofía, los juegos y la inteligencia artificial. En su sentido tradicional, un agente se refiere a una entidad que puede actuar de forma autónoma, tomar decisiones y tener intenciones, características que a menudo se asocian con los humanos.

En el campo de la inteligencia artificial, el concepto de agentes se vuelve más complejo. Con la aparición de agentes autónomos, estos pueden observar, aprender y actuar de forma independiente en su entorno, lo que da forma concreta al concepto abstracto de agente en sistemas computacionales. Estos agentes requieren poca intervención humana, mostrando una capacidad que, aunque no es consciente, tiene una intención computacional, pudiendo tomar decisiones, aprender de la experiencia e interactuar con otros agentes o humanos de maneras cada vez más complejas.

Este artículo explorará el campo emergente de los agentes autónomos, especialmente los agentes basados en modelos de lenguaje grandes (LLM) y su impacto en diferentes áreas como juegos, gobernanza, ciencia y robótica. Basándose en los principios fundamentales de los agentes, el artículo analizará la arquitectura y las aplicaciones de los agentes de inteligencia artificial. A través de esta perspectiva de clasificación, podremos comprender cómo estos agentes ejecutan tareas, procesan información y evolucionan continuamente dentro de su marco operativo específico.

Los objetivos de este artículo incluyen los siguientes dos aspectos:

Ofrecer una visión sistemática de los agentes de inteligencia artificial y sus fundamentos arquitectónicos, enfocándose en componentes como memoria, percepción, razonamiento y planificación.

Explorando las últimas tendencias en la investigación de agentes de inteligencia artificial, destacando ejemplos de aplicaciones en la redefinición de posibilidades.

Nota: Debido a la extensión del artículo, esta traducción ha sido abreviada respecto al texto original.

1. Tendencias en la investigación de agentes

El desarrollo de agentes basados en modelos de lenguaje grandes (LLM) marca un progreso significativo en la investigación de inteligencia artificial, abarcando múltiples avances desde razonamiento simbólico, sistemas reactivos, aprendizaje por refuerzo hasta aprendizaje adaptativo.

Agentes simbólicos: simulan el razonamiento humano mediante reglas y conocimiento estructurado, adecuados para problemas específicos (como diagnósticos médicos), pero difíciles de manejar en entornos complejos e inciertos.

Agentes reactivos: responden rápidamente al entorno a través de un ciclo de 'percepción-acción', adecuados para escenarios de interacción rápida, pero incapaces de completar tareas complejas.

Agentes de aprendizaje por refuerzo: optimizan el comportamiento a través de aprendizaje por prueba y error, ampliamente aplicados en juegos y robótica, pero con largos tiempos de entrenamiento, baja eficiencia de muestras y mala estabilidad.

Agentes basados en LLM: los agentes LLM combinan razonamiento simbólico, retroalimentación y aprendizaje adaptativo, con capacidades de aprendizaje de pocos y cero ejemplos, aplicables en desarrollo de software, investigación científica, etc., adecuados para entornos dinámicos y capaces de colaborar con otros agentes.

2. Arquitectura de agentes

Las arquitecturas modernas de agentes incluyen múltiples módulos, formando un sistema integrado.

1) Módulo de archivo

El módulo de archivo determina el comportamiento de los agentes, asegurando consistencia a través de la asignación de roles o personalidades, adecuado para escenarios que requieren personalidades estables. Los archivos de agentes LLM se dividen en tres categorías: roles demográficos, roles virtuales y roles personalizados.

Extraído del artículo (De roles a personalización)

Mejora del rendimiento a través de roles La definición de roles puede mejorar significativamente el rendimiento y la capacidad de razonamiento de los agentes. Por ejemplo, los LLM responden de manera más profunda y contextual cuando actúan como expertos. En sistemas multi-agente, la coincidencia de roles promueve la colaboración, aumentando la tasa de finalización de tareas y la calidad de interacción.

Métodos de creación de archivos Los archivos de agentes LLM se pueden construir de las siguientes maneras:

Diseño manual: características de rol definidas por humanos.

Generación de LLM: expande automáticamente la configuración de personajes a través de LLM.

Alineación de conjuntos de datos: construidos a partir de conjuntos de datos reales, mejorando la autenticidad de la interacción.

2) Módulo de memoria

La memoria es el núcleo de los agentes LLM, apoyando la planificación y toma de decisiones adaptativas. La estructura de memoria simula procesos humanos, dividiéndose principalmente en dos categorías:

Memoria unificada: memoria a corto plazo, procesando información reciente. Optimizada a través de recortes de texto, resúmenes de memoria y mecanismos de atención modificados, pero limitada por la ventana de contexto.

Memoria híbrida: combina memoria a corto y largo plazo, almacenando memoria a largo plazo en bases de datos externas para facilitar el recuerdo eficiente.

Formato de memoria Los formatos comunes de almacenamiento de memoria incluyen:

Lenguaje natural: flexible y semánticamente rico.

Vectores de incrustación: facilitan la búsqueda rápida.

Base de datos: soporta consultas mediante almacenamiento estructurado.

Lista estructurada: organizar en forma de lista o jerarquía.

Los agentes interactúan con la memoria a través de las siguientes operaciones:

Lectura de memoria: recuperar información relevante para apoyar decisiones informadas.

Escritura de memoria: almacenar nueva información, evitando duplicación y desbordamiento.

Reflexión de la memoria: resumir experiencias, mejorando la capacidad de razonamiento abstracto.

Contenido basado en el artículo (Agentes Generativos)

Significado e importancia de la investigación

A pesar de que los sistemas de memoria mejoran las capacidades de los agentes, también presentan desafíos de investigación:

Escalabilidad y eficiencia: los sistemas de memoria deben soportar grandes cantidades de información y asegurar una búsqueda rápida, cómo optimizar la recuperación de memoria a largo plazo sigue siendo un enfoque de investigación.

Manejo de limitaciones de contexto: los LLM actuales están limitados por la ventana de contexto, dificultando la gestión de grandes memorias, y la investigación explora mecanismos de atención dinámica y técnicas de resumen para expandir la capacidad de procesamiento de memoria.

Sesgos y deriva en la memoria a largo plazo: la memoria puede estar sesgada, priorizando la información y causando deriva, por lo que es necesario actualizar y corregir sesgos periódicamente para mantener el equilibrio de los agentes.

Olvido catastrófico: nuevos datos sobrescriben datos antiguos, provocando la pérdida de información clave, lo cual debe ser reforzado a través de la reproducción de experiencias y técnicas de consolidación de memoria.

3) Capacidades de percepción

Los agentes LLM mejoran su comprensión y capacidad de decisión sobre el entorno mediante el manejo de diversas fuentes de datos, similar a cómo los humanos dependen de la entrada sensorial. La percepción multimodal integra entradas textuales, visuales y auditivas, mejorando la capacidad de los agentes para ejecutar tareas complejas. A continuación, se presentan los principales tipos de entrada y sus aplicaciones:

Entrada de texto: el texto es el principal medio de comunicación de los agentes LLM. A pesar de que los agentes tienen habilidades lingüísticas avanzadas, entender el significado implícito detrás de las instrucciones sigue siendo un desafío.

Comprensión implícita: ajustar preferencias a través del aprendizaje por refuerzo, manejando instrucciones ambiguas y deduciendo intenciones.

Capacidades de cero y pocos ejemplos: responder a nuevas tareas sin entrenamiento adicional, adecuado para escenarios de interacción diversos.

Entrada visual La percepción visual permite que los agentes entiendan la relación entre objetos y espacios.

Conversión de imágenes a texto: generar descripciones textuales para ayudar a procesar datos visuales, aunque puede perder detalles.

Codificación basada en Transformer: como los Transformers de visión que convierten imágenes en tokens compatibles con texto.

Herramientas de puente: como BLIP-2 y Flamingo optimizan la conexión entre visual y texto mediante capas intermedias.

La entrada auditiva y la percepción auditiva permiten que los agentes reconozcan sonidos y voces, siendo especialmente importante en escenarios interactivos y de alto riesgo.

Reconocimiento y síntesis de voz: como Whisper (de voz a texto) y FastSpeech (de texto a voz).

Procesamiento de espectrogramas: convertir espectrogramas de audio en imágenes, mejorando la capacidad de análisis de señales auditivas.

Desafíos y consideraciones en la investigación sobre percepción multimodal:

Alineación e integración de datos: los datos multimodales requieren alineación eficiente para evitar errores en la percepción y respuesta, la investigación se centra en optimizar Transformers multimodales y capas de atención cruzada.

Escalabilidad y eficiencia La demanda de procesamiento multimodal es alta, especialmente al manejar imágenes y audio de alta resolución; desarrollar modelos con bajo consumo de recursos y escalables es clave.

Olvido catastrófico: los agentes multimodales enfrentan el olvido catastrófico, requiriendo estrategias como la reproducción prioritaria y el aprendizaje continuo para conservar efectivamente información clave.

La generación de respuestas sensibles al contexto prioriza el procesamiento de datos sensoriales según el contexto sigue siendo un enfoque de investigación, especialmente en entornos ruidosos o dominados por lo visual.

4) Razonamiento y planificación

Los módulos de razonamiento y planificación ayudan a los agentes a resolver problemas de manera eficiente al descomponer tareas complejas. Similar a los humanos, puede formular planes estructurados, construyendo planes completos por adelantado o ajustando estrategias en tiempo real según los comentarios. Los métodos de planificación se clasifican según el tipo de retroalimentación:

Algunos agentes construyen un plan completo por adelantado, ejecutando según un solo camino o múltiples opciones, sin modificar el plan.

Otros agentes ajustan sus estrategias en tiempo real en entornos dinámicos según la retroalimentación.

Planificación sin retroalimentación: en condiciones sin retroalimentación, los agentes elaboran un plan completo desde el principio y lo ejecutan sin ajustes. Incluye planificación de un solo camino (ejecutar por pasos) y planificación de múltiples caminos (explorar múltiples opciones simultáneamente y elegir la mejor ruta).

Descomposición de tareas de razonamiento de un solo camino en pasos secuenciales, donde cada paso sigue al siguiente:

Cadena de pensamiento (CoT): guiar a los agentes a resolver problemas paso a paso mediante ejemplos, mejorando la calidad de salida del modelo.

Zero-shot-CoT: sin ejemplos preestablecidos, razona a través de la sugerencia 'pensar paso a paso', aplicable al aprendizaje cero-shot.

Re-sugerencia: descubrir automáticamente sugerencias efectivas de CoT sin entrada manual.

Procedente del artículo CoT

5) Razonamiento de múltiples caminos

A diferencia del razonamiento de un solo camino, el razonamiento de múltiples caminos permite que los agentes exploren múltiples pasos simultáneamente, generando y evaluando múltiples soluciones potenciales, eligiendo la mejor ruta, adecuado para problemas complejos, especialmente en situaciones con múltiples vías posibles.

Ejemplo:

Auto-coherencia de pensamiento encadenado (CoT-SC): muestrear múltiples caminos de razonamiento de las salidas de sugerencias CoT, eligiendo los pasos más frecuentes para lograr 'auto-integración'.

Árbol de pensamiento (ToT): almacenar pasos lógicos como estructura de árbol, evaluando la contribución de cada 'pensamiento' a la solución, usando navegación por búsqueda en amplitud o profundidad.

Árbol de pensamiento (GoT): expande ToT a una estructura gráfica, donde los pensamientos son nodos y las relaciones son aristas, permitiendo razonamientos más flexibles.

A través de razonamiento planificado (RAP): utiliza búsqueda de árbol de Monte Carlo (MCTS) para simular múltiples planes, donde el modelo de lenguaje construye el árbol de razonamiento y proporciona retroalimentación.

6) Planificadores externos

Cuando los LLM se enfrentan a desafíos de planificación en dominios específicos, los planificadores externos proporcionan apoyo, integrando el conocimiento especializado que falta en los LLM.

LLM+P: convierte tareas en lenguajes de definición de dominio de planificación (PDDL), resolviendo a través de planificadores externos, ayudando a los LLM a completar tareas complejas.

CO-LLM: generación de texto colaborativa entre modelos, mediante la selección alterna de modelos para generar marcas, permitiendo que el modo de colaboración óptimo surja de forma natural.

Planificación con retroalimentación: la planificación con retroalimentación permite a los agentes ajustar tareas en tiempo real según los cambios ambientales, adaptándose a escenarios impredecibles o complejos.

Agentes de retroalimentación ambiental ajustan planes en función de la retroalimentación en tiempo real durante la interacción con el entorno, manteniendo el progreso de las tareas.

ReAct: combina razonamiento y sugerencias de acción para crear planes ajustables en la interacción.

DEPS: revisar planes en la planificación de tareas, manejar subobjetivos no cumplidos.

SayPlan: utiliza gráficos de escenarios y transferencias de estado para refinar estrategias, mejorando la percepción contextual.

Procedente del artículo (ReAct)

7) Retroalimentación humana

Al interactuar con humanos, los agentes ayudan a alinearse con los valores humanos, evitando errores. Ejemplo:

Monólogo interno: integrar el feedback humano en la planificación de los agentes, asegurando que las acciones coincidan con las expectativas humanas.

La retroalimentación del modelo proviene de modelos preentrenados, ayudando a los agentes a auto-chequear y optimizar el razonamiento y la acción. Ejemplo:

SelfCheck: verificador de pasos cero-shot, utilizado para identificar errores en cadenas de razonamiento y evaluar la corrección.

Reflexión: los agentes reflexionan mediante el registro de señales de retroalimentación, fomentando el aprendizaje a largo plazo y la corrección de errores.

Procedente del artículo (SelfCheck)

Desafíos y direcciones de investigación en razonamiento y planificación: aunque los módulos de razonamiento y planificación mejoran las capacidades de los agentes, todavía enfrentan desafíos:

Escalabilidad y demanda computacional: métodos complejos como ToT o RAP requieren una gran cantidad de recursos computacionales, mejorando la eficiencia sigue siendo un enfoque de investigación.

Complejidad de la integración de retroalimentación: integrar efectivamente retroalimentaciones de múltiples fuentes para evitar sobrecarga de información es clave para mejorar la adaptabilidad sin sacrificar el rendimiento.

Sesgos en la toma de decisiones: priorizar ciertas fuentes de retroalimentación o rutas puede provocar sesgos, y combinar técnicas de eliminación de sesgos es clave para equilibrar la planificación.

8) Acción

El módulo de acción es la última etapa del proceso de toma de decisiones de los agentes, que incluye:

Objetivos de acción: los agentes ejecutan múltiples objetivos, como completar tareas, comunicarse o explorar el entorno.

Generación de acciones: generar acciones mediante recuerdos o planificación, como acciones basadas en memoria o planificación.

Espacio de acción: incluye conocimientos internos y herramientas externas, como APIs, bases de datos o modelos externos para ejecutar tareas. Por ejemplo, herramientas como HuggingGPT y ToolFormer utilizan modelos externos o APIs para la ejecución de tareas.

Bases de datos y bibliotecas de conocimiento: ChatDB utiliza consultas SQL para recuperar información específica del dominio, mientras que MRKL integra sistemas expertos y herramientas de planificación para razonamientos complejos.

Modelos externos: los agentes pueden depender de modelos no API para ejecutar tareas especializadas. Por ejemplo, ChemCrow utiliza múltiples modelos para el descubrimiento de fármacos, mientras que MemoryBank mejora la recuperación de texto usando dos modelos.

Impacto de las acciones: las acciones se pueden clasificar según sus resultados:

Cambio en el entorno: como la recolección de recursos o la construcción de estructuras en Voyager y GITM, alteran el entorno.

Auto-influencia: como los Agentes Generativos actualizan la memoria o formulan nuevos planes.

Encadenamiento de tareas: ciertas acciones desencadenan otras, como Voyager construyendo estructuras después de la recolección de recursos.

Expansión del espacio de acción: diseñar agentes de IA requiere una arquitectura sólida y habilidades para tareas. La adquisición de capacidades puede hacerse de dos maneras: ajuste fino y sin ajuste fino.

Adquisición de capacidades mediante ajuste fino:

Conjuntos de datos etiquetados manualmente: como RET-LLM y EduChat, mejoran el rendimiento de LLM a través del etiquetado manual.

Conjuntos de datos generados por LLM: como ToolBench, ajustan las instrucciones generadas por LLM para refinar LLaMA.

Conjuntos de datos del mundo real: como MIND2WEB y SQL-PaLM, mejoran las capacidades de los agentes a través de datos de aplicaciones reales.

Adquisición de capacidades sin ajuste fino: cuando el ajuste fino no es factible, los agentes pueden mejorar sus capacidades a través de ingeniería de sugerencias y ingeniería de mecanismos.

Ingeniería de sugerencias: guiar el comportamiento de LLM a través del diseño de sugerencias, mejorando el rendimiento.

Cadena de Pensamiento (CoT): añade pasos intermedios de razonamiento, apoyando la resolución de problemas complejos.

SocialAGI: ajusta los diálogos según el estado psicológico del usuario.

Retroformer: optimiza decisiones al reflexionar sobre fracasos pasados.

La ingeniería de mecanismos mejora la capacidad de los agentes a través de reglas y mecanismos específicos.

DEPS: optimiza planes mediante la descripción de procesos de ejecución, retroalimentación y selección de objetivos para mejorar la corrección de errores.

RoCo: ajustar planes de colaboración entre múltiples robots según la inspección del entorno.

Mecanismo de debate: alcanzar consensos a través de la colaboración.

Acumulación de experiencia

GITM: mecanismo de memoria basado en texto que mejora la capacidad de aprendizaje y generalización.

Voyager: optimiza la ejecución de habilidades a través de retroalimentación propia.

Evolución autónoma

LMA3: apoya la re-etiquetación de objetivos y funciones de recompensa, permitiendo que los agentes aprendan habilidades en entornos sin tareas específicas.

Procedente del artículo (Voyager)

El ajuste fino puede mejorar significativamente el rendimiento específico de la tarea, pero requiere modelos de código abierto y consume muchos recursos. La ingeniería de sugerencias y la ingeniería de mecanismos son aplicables a modelos de código abierto y cerrado, pero están limitadas por la ventana de contexto de entrada y requieren un diseño cuidadoso.

3. Arquitectura de sistemas que involucran múltiples agentes (agents)

La arquitectura multi-agente asigna tareas a múltiples agentes, cada uno enfocado en diferentes aspectos, mejorando la robustez y adaptabilidad. La colaboración y la retroalimentación entre agentes mejoran el rendimiento general, y la cantidad de agentes puede ajustarse dinámicamente según sea necesario. Sin embargo, esta arquitectura enfrenta desafíos de coordinación, siendo la comunicación crucial para evitar la pérdida o malentendido de información.

Para facilitar la comunicación y coordinación entre agentes, la investigación se centra en dos estructuras organizativas:

Estructura horizontal: todos los agentes comparten y optimizan decisiones, recopilando decisiones individuales a través de decisiones colectivas, aplicable en escenarios de consultoría o uso de herramientas.

Estructura vertical: un agente propone una solución preliminar, mientras que otros agentes proporcionan retroalimentación o son supervisados por un gerente, adecuada para tareas que requieren soluciones refinadas, como la resolución de problemas matemáticos o el desarrollo de software.

Procedente del artículo (ChatDev)

1) Estructura organizativa mixta

DyLAN combina estructuras verticales y horizontales en un enfoque híbrido, donde los agentes colaboran horizontalmente dentro de la misma capa y comparten información a través de pasos de tiempo. DyLAN introduce modelos de clasificación y un sistema de puntuación de importancia de agentes, evaluando dinámicamente y eligiendo los agentes más relevantes para continuar colaborando, desactivando aquellos que muestran un rendimiento deficiente, formando así una estructura jerárquica. Los agentes de mayor rango juegan un papel clave en la tarea y la composición del equipo.

El marco multi-agente cooperativo se centra en maximizar la eficiencia mediante el intercambio de información y la coordinación de acciones, aprovechando las ventajas de cada agente para lograr una cooperación complementaria.

Procedente del artículo (Agentverse)

Las interacciones colaborativas se dividen en dos tipos:

Cooperación desordenada: múltiples agentes interactúan libremente, sin seguir un orden o proceso fijos, similar a una lluvia de ideas. Cada agente proporciona retroalimentación, y el sistema coordina a los agentes para integrar entradas y organizar respuestas, evitando confusiones, generalmente utilizando un mecanismo de votación mayoritaria para alcanzar consensos.

Cooperación ordenada: los agentes interactúan secuencialmente, siguiendo procesos estructurados, cada agente se enfoca en la salida del agente anterior, asegurando una comunicación eficiente. Las tareas se completan rápidamente, evitando confusiones, pero se requiere validación cruzada o intervención humana para prevenir la amplificación de errores.

Procedente del artículo de MetaGPT

Marco multi-agente adversario: el marco cooperativo mejora la eficiencia y colaboración, mientras que el marco adversario impulsa la evolución de los agentes a través de desafíos. Inspirado en la teoría de juegos, la interacción adversaria anima a los agentes a mejorar su comportamiento a través de retroalimentación y reflexión. Por ejemplo, AlphaGo Zero mejora su estrategia a través de auto-juego, mientras que los sistemas LLM mejoran la calidad de salida a través de debate y intercambio de 'ojo por ojo'. Aunque este enfoque promueve la adaptabilidad de los agentes, también conlleva costos computacionales y riesgos de error.

Comportamientos emergentes en sistemas multi-agente, pueden aparecer tres tipos de comportamientos emergentes:

Comportamiento voluntario: los agentes contribuyen activamente con recursos o ayudan a otros.

Comportamiento de consistencia: los agentes ajustan su comportamiento para alinearse con los objetivos del equipo.

Comportamientos destructivos: los agentes pueden adoptar comportamientos extremos para lograr objetivos rápidamente, lo que puede generar riesgos de seguridad.

Pruebas de referencia y evaluación Las pruebas de referencia son herramientas clave para evaluar el rendimiento de los agentes, plataformas comunes incluyen ALFWorld, IGLU y Minecraft, utilizadas para evaluar las capacidades de los agentes en planificación, colaboración y ejecución de tareas. Al mismo tiempo, la evaluación del uso de herramientas y habilidades sociales también es muy importante, plataformas como ToolBench y SocKET evalúan respectivamente la adaptabilidad y comprensión social de los agentes.

El uso de juegos digitales se ha convertido en una plataforma importante para la investigación de AI, donde los agentes de juego basados en LLM se centran en habilidades cognitivas, impulsando la investigación de AGI.

Procedente del artículo (Encuesta sobre Agentes de Juegos basados en Modelos de Lenguaje Grande)

La percepción de los agentes en los juegos: en videojuegos, los agentes comprenden el estado del juego a través de un módulo de percepción, con tres métodos principales:

Acceso a variables de estado: acceso a datos simbólicos a través de la API del juego, adecuado para juegos con bajas demandas visuales.

Codificador visual externo: utiliza codificadores visuales para convertir imágenes en texto, como CLIP, ayudando a los agentes a entender el entorno.

Modelos de lenguaje multimodal: combinando datos visuales y textuales, mejorando la adaptabilidad de los agentes, como GPT-4V.

Estudio de caso de agentes de juegos

Cradle (juego de aventuras): este juego requiere que los agentes entiendan la trama, resuelvan acertijos y naveguen, enfrentándose a desafíos de soporte multimodal, memoria dinámica y toma de decisiones. El objetivo de Cradle es lograr el control computacional general (GCC), permitiendo que los agentes ejecuten cualquier tarea de computadora a través de entradas de pantalla y audio, con mayor versatilidad.

PokéLLMon (juego competitivo) Los juegos competitivos, debido a sus estrictas reglas y tasas de victoria comparables a las de los jugadores humanos, se convierten en estándares para el rendimiento de razonamiento y planificación. Varios marcos multi-agente han demostrado un rendimiento competitivo. Por ejemplo, en el artículo (Los modelos de lenguaje grande juegan StarCraft II: referencia y métodos de resumen encadenado), los agentes LLM compitieron en una versión textual de StarCraft II contra una IA incorporada. PokéLLMon es el primer agente LLM en lograr un rendimiento a nivel humano, obteniendo un 49% de tasa de victorias en clasificaciones y un 56% en torneos. Este marco evita alucinaciones y ciclos de pánico en el pensamiento encadenado, mejorando la generación de conocimientos y acciones coherentes. Los agentes convierten los registros de estado del servidor de combate en texto, asegurando la coherencia entre turnos y apoyando el razonamiento basado en la memoria.

Los agentes optimizan estrategias y evitan el uso cíclico de habilidades ineficaces mediante cuatro tipos de retroalimentación de aprendizaje por refuerzo, incluyendo cambios en HP, efectos de habilidades, estimación de velocidad en el orden de acciones, y efectos del estado de habilidades.

PokéLLMon utiliza recursos externos (como Bulbapedia) para adquirir conocimientos, como debilidades de tipo y efectos de habilidades, ayudando a los agentes a usar habilidades especiales con mayor precisión. Además, al evaluar los métodos CoT, Self-Consistency y ToT, se descubrió que Self-Consistency mejora significativamente la tasa de victorias.

ProAgent (juego cooperativo) Los juegos cooperativos requieren entender las intenciones de los compañeros y predecir acciones, completando tareas mediante cooperación explícita o implícita. La cooperación explícita es eficiente pero menos flexible, mientras que la implícita depende de predecir las estrategias de los compañeros para interacciones adaptativas. En (Overcooked), ProAgent demostró la capacidad de cooperación implícita, con un proceso central dividido en cinco pasos:

Recopilación de conocimientos y transición de estados: extraer conocimientos relacionados con tareas y generar descripciones en lenguaje.

Planificación de habilidades: inferir intenciones de compañeros y formular planes de acción.

Corrección de creencias: actualizar dinámicamente la comprensión del comportamiento de los compañeros de equipo, reduciendo errores.

Validación y ejecución de habilidades: ajustar iterativamente los planes para asegurar que las acciones sean efectivas.

Almacenamiento de memoria: registrar interacciones y resultados para optimizar decisiones futuras.

Entre ellos, el mecanismo de corrección de creencias es particularmente clave, asegurando que los agentes actualicen su comprensión a medida que interactúan, mejorando la percepción contextual y la precisión en la toma de decisiones.

ProAgent supera cinco métodos de auto-juego y entrenamiento basado en grupos.

2) Agentes generativos (simulados)

¿Cómo pueden los personajes virtuales reflejar la profundidad y complejidad del comportamiento humano? Aunque los sistemas AI tempranos como SHRDLU y ELIZA intentaron interacciones en lenguaje natural, los métodos basados en reglas y el aprendizaje por refuerzo también han avanzado en los juegos, pero tienen limitaciones en coherencia e interacción abierta. Hoy en día, los agentes que combinan LLM con arquitecturas multicapa han superado estas limitaciones, mostrando la capacidad de almacenar memoria, reflexionar sobre eventos y adaptarse a cambios. La investigación muestra que estos agentes no solo pueden simular el comportamiento humano real, sino que también muestran la capacidad emergente de difundir información, establecer relaciones sociales y coordinar comportamientos, haciendo que los personajes virtuales sean más realistas.

Procedente de (El auge y potencial de los agentes de modelos de lenguaje a gran escala: una investigación)

Descripción general de la arquitectura: La arquitectura combina percepción, recuperación de memoria, reflexión, planificación y reacción. Los agentes procesan observaciones en lenguaje natural a través de un módulo de memoria, evaluando y recuperando información según la temporalidad, importancia y relevancia contextual, al tiempo que generan reflexiones basadas en recuerdos pasados, proporcionando profundas percepciones sobre relaciones y planes. El módulo de razonamiento y planificación es similar al ciclo planificar-actuar.

Resultados simulados: La investigación simuló la difusión de información en una fiesta de San Valentín y elecciones de alcalde, donde la conciencia de los candidatos a alcalde aumentó del 4% al 32% en dos días, mientras que la conciencia de la fiesta aumentó del 4% al 52%, con solo un 1.3% de información falsa. Los agentes se coordinan espontáneamente para organizar la fiesta, formando una nueva red social, con una densidad que pasa de 0.167 a 0.74. La simulación muestra un mecanismo de intercambio de información y coordinación social sin intervención externa, proporcionando referencias para futuros experimentos en ciencias sociales.

Voyager (Creación y exploración): En Minecraft, los agentes pueden ejecutar tareas de creación o explorar de forma autónoma. Las tareas de creación dependen de la planificación LLM y la descomposición de tareas, mientras que la exploración autónoma identifica tareas a través de aprendizaje por cursos, generando objetivos LLM. Voyager es un agente de aprendizaje continuo encarnado, que combina cursos automáticos, biblioteca de habilidades y mecanismos de retroalimentación, mostrando el potencial de exploración y aprendizaje.

Cursos automáticos utilizan LLM para generar objetivos relacionados con el estado del agente y el progreso de la exploración, complejizando gradualmente las tareas. Los agentes generan código modular para ejecutar tareas y retroalimentan los resultados a través de indicaciones de pensamiento encadenado, modificando el código cuando es necesario. Tras el éxito, el código se almacena en una biblioteca de habilidades para uso futuro.

El marco Voyager ha mejorado significativamente la eficiencia de desbloqueo del árbol tecnológico, desbloqueando madera, piedra y hierro a velocidades 15.3x, 8.5x y 6.4x más rápidas respectivamente, y se ha convertido en el único marco que desbloquea diamantes. Su distancia de exploración es 2.3 veces más larga que la de referencia, descubriendo nuevos objetos 3.3 veces más, demostrando una excelente capacidad de aprendizaje continuo.

4. Aplicaciones potenciales en el ámbito de los juegos 1) Jugabilidad impulsada por agentes

Simulación multi-agente: los personajes de IA actúan de forma autónoma, impulsando la jugabilidad dinámica.

Unidades inteligentes en juegos de estrategia: los agentes se adaptan al entorno y toman decisiones de forma autónoma según los objetivos del jugador.

Campo de entrenamiento de IA: los jugadores diseñan y entrenan a la IA para completar tareas.

2) NPC y mundos virtuales potenciados por IA

NPCs de mundo abierto: NPCs impulsados por LLM que afectan la dinámica económica y social.

Diálogos realistas: mejorar la experiencia de interacción de los NPC.

Ecología virtual: la evolución de sistemas ecológicos impulsados por IA.

Eventos dinámicos: gestionar actividades dentro del juego en tiempo real.

3) Narrativa dinámica y soporte al jugador

Narrativa adaptativa: los agentes generan tareas e historias personalizadas.

Asistente de jugador: Proporciona pistas y apoyo interactivo.

AI con respuesta emocional: interactuar según el estado emocional del jugador.

4) Educación y creación

Oponente de IA: se adapta a las estrategias de los jugadores en competiciones y simulaciones.

Juegos educativos: los agentes proporcionan enseñanza personalizada.

Creación asistida: generar contenido para juegos, reduciendo la barrera de entrada al desarrollo.

5) Aplicaciones en el campo de la criptografía y las finanzas

Los agentes operan carteras, intercambios y protocolos DeFi de forma autónoma a través de blockchain.

Cartera de contrato inteligente: soporta firmas múltiples y abstracción de cuentas, aumentando la autonomía de los agentes.

Gestión de claves privadas: utilizando computación multipartita (MPC) o entornos de ejecución confiables (TEE) para garantizar la seguridad, como la herramienta de agente de IA desarrollada por Coinbase.

Estas técnicas brindan nuevas oportunidades para la interacción autónoma en cadena de los agentes y aplicaciones en ecosistemas criptográficos.

5) Aplicaciones de agentes en el campo de blockchain

1) Razonamiento de agentes verificadores

La verificación fuera de la cadena es un área candente en la investigación de blockchain, principalmente aplicada en cálculos de alta complejidad. Las direcciones de investigación incluyen pruebas de conocimiento cero, verificación optimista, entornos de ejecución confiables (TEE) y teoría de juegos de economía criptográfica.

Verificación de salida de agentes: confirmar los resultados de razonamiento de los agentes a través de un verificador en cadena, permitiendo que los agentes sean ejecutados externamente y que los resultados de razonamiento fiables se registren en la cadena, similar a los oráculos descentralizados.

Caso: 'Leela vs. the World' de Modulus Labs utiliza circuitos de conocimiento cero para validar movimientos en el juego, combinando mercados predictivos y salida de AI verificable.

2) Colaboración de agentes criptográficos

Los sistemas de nodos distribuidos pueden operar sistemas multi-agente y alcanzar consensos.

Caso Ritual: mediante la ejecución de LLM en múltiples nodos, combinando verificación en cadena y votación para formar decisiones de acción de los agentes.

Protocolo Naptha: proporciona un mercado de tareas y un sistema de verificación de flujos de trabajo para la colaboración y verificación de tareas de agentes.

Oráculo de IA descentralizado: como el protocolo Ora, que apoya la operación de agentes distribuidos y el establecimiento de consensos.

3) Marco Eliza

Desarrollado por a16z, un marco de múltiples agentes de código abierto diseñado para blockchain, que apoya la creación y gestión de agentes inteligentes personalizados.

Características: arquitectura modular, memoria a largo plazo, integración de plataformas (soportando Discord, X, Telegram, etc.).

Motor de confianza: combina el comercio automatizado de Tokens para evaluar y gestionar puntajes de confianza recomendados.

4) Otras aplicaciones de agentes

Adquisición de capacidades descentralizada: incentivando el desarrollo de herramientas y conjuntos de datos a través de mecanismos de recompensa, como la creación de bibliotecas de habilidades y navegación de protocolos.

Agentes de mercado predictivos: combinan mercados predictivos y comercio autónomo de agentes, como Gnosis y Autonolas, que apoyan servicios de predicción y respuesta en la cadena.

Gobernanza de agentes: a través de agentes, analiza automáticamente propuestas y vota en DAO.

Agentes tokenizados: compartir ingresos de agentes, como MyShell y Virtuals Protocol que apoyan mecanismos de dividendos.

Gestión de intenciones DeFi: optimizar la experiencia del usuario en un entorno multi-cadena, ejecutando transacciones automáticamente.

Emisión de Tokens autónoma: los agentes emiten Tokens, aumentando su atractivo en el mercado.

Artista autónomo: como Botto, que combina votación comunitaria y acuñación de NFT en cadena, apoyando la creación y distribución de ingresos de los agentes.

Agentes de juego económicos: AI Arena y otros combinan aprendizaje por refuerzo y aprendizaje por imitación, diseñando competiciones de juegos en línea 24/7.

6. Dinámicas y perspectivas recientes

Varios proyectos están explorando puntos de intersección entre blockchain y AI, con un rico campo de aplicaciones. Se discutirá específicamente sobre agentes de IA en cadena más adelante. 1) Capacidad de predicción La predicción es clave en la toma de decisiones. Las predicciones tradicionales se dividen en estadísticas y juicios, siendo esta última dependiente de expertos, costosa y lenta.

Avances en la investigación:

A través de la búsqueda de noticias y el aumento de razonamiento, la precisión de predicción de los modelos de lenguaje grandes (LLMs) se incrementó del 50% al 71.5%, acercándose al 77% de las predicciones humanas.

La integración de 12 modelos predice resultados cercanos a los equipos humanos, demostrando que la 'sabiduría de las multitudes' mejora la fiabilidad.

2) Juegos de roles (Roleplay)

Los LLM han demostrado un rendimiento sobresaliente en el ámbito de los juegos de roles, combinando inteligencia social y mecanismos de memoria, siendo capaces de simular interacciones complejas.

Aplicaciones: aplicables a simulaciones de roles, interacciones de juegos y diálogos personalizados.

Método: combina generación aumentada por búsqueda (RAG) y ingeniería de diálogos para optimizar el rendimiento mediante sugerencias de pocos ejemplos.

Innovación:

RoleGPT extrae dinámicamente el contexto de roles, mejorando el realismo.

Character-LLM reproduce características de personajes históricos a través de datos biográficos, reflejando con precisión los roles.

Estas técnicas han impulsado la expansión de aplicaciones de IA en simulaciones sociales e interacciones personalizadas.

Extraído del artículo (Character-LLM)

Aplicaciones de RPLA (Agente de Lenguaje de Juego de Roles)

A continuación se presenta una breve lista de algunas aplicaciones RPLA:

NPCs interactivos en juegos: crear personajes dinámicos con inteligencia emocional, aumentando la inmersión del jugador.

Simulación de personajes históricos: recrear figuras históricas, como Sócrates o Cleopatra, para educación o diálogos exploratorios.

Asistente de creación de historias: Proporciona un rico soporte narrativo y de diálogo para escritores, jugadores de RPG y creadores.

Representaciones virtuales: interpretar actores o figuras públicas en escenarios de teatro interactivo, eventos virtuales y otros contextos de entretenimiento.

Co-creación de IA: colaborar con IA para crear arte, música o historias en estilos específicos.

Compañero de aprendizaje de idiomas: simula hablantes nativos para proporcionar práctica de idiomas inmersiva.

Simulaciones sociales: construir sociedades futuras o imaginarias, probando escenarios culturales, éticos o de comportamiento.

Compañeros virtuales personalizados: crear asistentes o compañeros personalizados con personalidad, características y memoria únicas.

7) Problemas de alineación de IA

Evaluar si los LLM se alinean con los valores humanos es una tarea compleja, llena de desafíos debido a la diversidad y apertura de los escenarios de aplicación real. Diseñar pruebas de alineación exhaustivas requiere una gran cantidad de esfuerzo, pero los conjuntos de datos de pruebas estáticas existentes son difíciles de actualizar a tiempo para reflejar nuevos problemas emergentes.

Actualmente, la alineación de IA se realiza principalmente a través de supervisión humana externa, como el método RLHF (aprendizaje por refuerzo basado en retroalimentación humana) de OpenAI, un proceso que toma 6 meses y consume muchos recursos para lograr la optimización de alineación de GPT-4.

También ha habido investigaciones que intentan reducir la supervisión humana, utilizando LLM más grandes para la revisión, pero una nueva dirección es analizar la alineación de los modelos utilizando el marco de agentes. Por ejemplo:

1) Marco ALI-Agent

Detectar riesgos sutiles o de 'larga cola' mediante la generación dinámica de escenarios reales, superando las limitaciones de las pruebas estáticas tradicionales.

Proceso de dos etapas:

Generación de escenarios: generar escenarios de riesgo potencial basados en conjuntos de datos o búsquedas en la red, utilizando un módulo de memoria para invocar registros de evaluaciones anteriores.

Optimización de escenarios: si no se identifican problemas de alineación, optimizar escenarios a través de retroalimentación del modelo objetivo.

Composición de módulos: módulos de memoria, módulos de herramientas (como búsqueda en la web) y módulos de acción. Las pruebas han demostrado que pueden revelar eficazmente problemas de alineación no reconocidos en los LLM.

2) Método MATRIX

Basado en el enfoque de auto-alineación de 'juegos de roles múltiples', inspirado en teorías sociológicas, para comprender los valores mediante la simulación de interacciones múltiples.

Características clave:

Método Monopolylogue: un modelo único actúa como múltiples roles y evalúa el impacto social.

Regulador social: registra reglas de interacción y resultados de simulación.

Innovación: abandonar reglas preestablecidas, moldear la conciencia social de LLM a través de interacciones simuladas, y afinar el modelo utilizando datos simulados para lograr una rápida auto-alineación. Las pruebas demuestran que la alineación de MATRIX supera a los métodos existentes, y en algunas pruebas de referencia, supera a GPT-4.

Extraído del artículo (MATRIX)

Aún hay mucha investigación sobre la alineación de IA de agentes, que podría merecer un artículo separado.

Gobernanza y organización Las organizaciones dependen de procedimientos operativos estándar (SOP) para coordinar tareas y asignar responsabilidades. Por ejemplo, un gerente de producto en una empresa de software utiliza SOP para analizar el mercado y las necesidades de los usuarios, y elabora un documento de requisitos del producto (PRD) para guiar el proceso de desarrollo. Esta estructura es adecuada para marcos multi-agente, como MetaGPT, donde los roles de agente están claros, cuentan con herramientas y capacidades de planificación relevantes, y optimizan su rendimiento a través de retroalimentación.

La arquitectura basada en agentes en robótica mejora el rendimiento de los robots en planificación de tareas complejas e interacciones adaptativas. Las políticas robóticas en condiciones de lenguaje ayudan a los robots a entender el entorno y generar secuencias de acción ejecutables según las necesidades de la tarea.

Marco arquitectónico: la combinación de LLM con planificación clásica permite analizar efectivamente comandos en lenguaje natural y transformarlos en secuencias de tareas ejecutables. El marco SayCan, que combina aprendizaje por refuerzo y planificación de capacidades, permite que los robots realicen tareas en el mundo real, asegurando la viabilidad y adaptabilidad de las instrucciones. Monólogo interno mejora aún más la adaptabilidad de los robots, ajustando acciones a través de retroalimentación para lograr autocorrección.

Marco de ejemplo SayCan: permite que los robots evalúen y ejecuten tareas (como recoger una bebida de la mesa) al enfrentarse a instrucciones en lenguaje natural, asegurando que coincidan con sus capacidades reales.

SayPlan: SayPlan planifica eficientemente tareas en múltiples habitaciones utilizando 3DSGs, manteniendo la percepción contextual espacial y verificando los planes, asegurando la ejecución de tareas en amplios espacios.

Monólogo interno: este marco optimiza la ejecución a través de retroalimentación en tiempo real, adaptándose a cambios en el entorno, aplicable en tareas de cocina y reordenamiento de escritorio, entre otros.

RoCo: un método de colaboración entre múltiples robots de cero-shot que combina razonamiento en lenguaje natural y planificación de movimientos, generando planes de subtareas y optimizando mediante validación ambiental para asegurar la viabilidad.

La ciencia (Empoderando el descubrimiento biomédico con agentes de IA) propone un marco multi-agente, combinando herramientas y expertos, apoyando el descubrimiento científico. El artículo presenta cinco esquemas de colaboración:

Agentes de lluvia de ideas

Agentes de consulta de expertos

Agentes de debate de investigación

Agente de discusión en mesa redonda

Agentes de laboratorio autónomos

El artículo también discute los niveles de autonomía de los agentes de IA:

Nivel 0: los modelos de ML ayudan a los científicos a formular hipótesis, como AlphaFold-Multimer que predice interacciones proteicas.

Nivel 1: los agentes actúan como asistentes para apoyar la tarea y la fijación de objetivos. ChemCrow utiliza herramientas de aprendizaje automático para expandir el espacio de acción y apoyar la investigación en química orgánica, descubriendo con éxito nuevos pigmentos.

Nivel 2: en la etapa del Nivel 2, los agentes de IA colaboran con científicos para refinar hipótesis, ejecutar pruebas de hipótesis y utilizar herramientas para descubrimientos científicos. Coscientista es un agente inteligente basado en múltiples LLM, capaz de planificar, diseñar y ejecutar experimentos complejos de manera autónoma, utilizando herramientas como Internet, API y colaboración con otros LLM, e incluso controlando hardware directamente. Su capacidad se manifiesta en la planificación de síntesis química, búsqueda de documentación de hardware, ejecución de órdenes de alto nivel, manipulación de líquidos, solución de problemas científicos complejos, entre otros seis aspectos.

Nivel 3: en la etapa del Nivel 3, los agentes de IA pueden superar el alcance de la investigación existente, deduciendo nuevas hipótesis. Aunque esta etapa aún no se ha logrado, optimizando su propio trabajo, podría acelerar el progreso del desarrollo de IA.

8. Resumen: El futuro de los agentes de IA

Los agentes de IA están transformando el concepto y aplicación de la inteligencia, reestructurando la toma de decisiones y la autonomía. Se han convertido en participantes activos en campos como el descubrimiento científico y marcos de gobernanza, no solo como herramientas, sino también como socios colaborativos. A medida que avanza la tecnología, debemos replantear cómo equilibrar el poder de estos agentes con los problemas éticos y sociales potenciales, asegurando que su impacto sea controlable, impulsando el desarrollo tecnológico y reduciendo riesgos.