Sept enseignements des agents AI : recherche et applications

Source de l'article : Blockchain en langage courant
Auteur : Rituals
Traduction : Blockchain en langage courant
Ces dernières années, le concept d'agent (Agent) a pris de l'importance dans divers domaines tels que la philosophie, les jeux et l'intelligence artificielle. Au sens traditionnel, un agent fait référence à une entité capable d'agir de manière autonome, de prendre des décisions et d'avoir des intentions, des caractéristiques généralement associées aux humains.
Dans le domaine de l'intelligence artificielle, la signification des agents devient plus complexe. Avec l'émergence des agents autonomes, ces agents peuvent observer, apprendre et agir de manière indépendante dans leur environnement, ce qui donne une forme concrète au concept abstrait d'agent dans le passé. Ces agents nécessitent presque aucune intervention humaine, montrant une capacité à prendre des décisions, à apprendre de l'expérience et à interagir de manière de plus en plus complexe avec d'autres agents ou humains, bien qu'ils ne soient pas conscients.
Cet article explorera le domaine émergent des agents autonomes, en particulier ceux basés sur de grands modèles de langage (LLM) et leur impact dans divers domaines tels que les jeux, la gouvernance, la science et la robotique. En s'appuyant sur les principes fondamentaux des agents, l'article analysera l'architecture et les applications des agents d'intelligence artificielle. Grâce à cette perspective catégorique, nous pourrons mieux comprendre comment ces agents accomplissent des tâches, traitent des informations et évoluent continuellement dans leur cadre opérationnel spécifique.
Les objectifs de cet article comprennent les deux aspects suivants :
Fournir un aperçu systématique des agents d'intelligence artificielle et des bases de leur architecture, mettant l'accent sur des éléments tels que la mémoire, la perception, le raisonnement et la planification.
Explorer les tendances récentes de la recherche sur les agents d'intelligence artificielle, mettant en évidence des cas d'application dans la redéfinition des possibilités.
Remarque : En raison de la longueur de l'article, la compilation de cet article a été abrégée.
1) Tendances de recherche sur les agents
Le développement d'agents basés sur de grands modèles de langage (LLM) marque une avancée significative dans la recherche en intelligence artificielle, englobant des progrès multiples allant du raisonnement symbolique, aux systèmes réactifs, à l'apprentissage par renforcement, jusqu'à l'apprentissage adaptatif.
Agents symboliques : Simulent le raisonnement humain à l'aide de règles et de connaissances structurées, adaptés à des problèmes spécifiques (comme le diagnostic médical), mais ayant du mal à gérer des environnements complexes et incertains.
Agents réactifs : Répondent rapidement à l'environnement par un cycle "perception-action", adaptés aux scénarios d'interaction rapide, mais incapables de résoudre des tâches complexes.
Agents d'apprentissage par renforcement : Optimisent le comportement par apprentissage par essai et erreur, largement utilisés dans les jeux et la robotique, mais avec un temps d'entraînement long, une faible efficacité d'échantillon et une stabilité médiocre.
Agents basés sur LLM : Les agents LLM combinent le raisonnement symbolique, le retour d'information et l'apprentissage adaptatif, avec des capacités d'apprentissage par peu d'exemples et zéro exemple, largement appliqués dans le développement de logiciels, la recherche scientifique, etc., adaptés aux environnements dynamiques et capables de collaborer avec d'autres agents.
2) Architecture des agents
Les architectures modernes d'agents comprennent plusieurs modules, formant un système intégré.
1) Module de profil
Le module de profil détermine le comportement de l'agent, en s'assurant de la cohérence en attribuant des rôles ou des personnalités, adapté aux scénarios nécessitant une personnalité stable. Les profils des agents LLM se divisent en trois catégories : rôles démographiques, rôles virtuels et rôles personnalisés.
Tiré de l'article (Des rôles à la personnalisation)
L'impact de la personnalité sur la performance : Le paramétrage des personnages peut significativement améliorer la performance et la capacité de raisonnement de l'agent. Par exemple, lorsque le LLM répond en tant qu'expert, il fournit des réponses plus approfondies et contextuelles. Dans un système multi-agents, l'appariement des rôles favorise la collaboration, augmentant le taux d'achèvement des tâches et la qualité des interactions.
Méthodes de création de profils : Les profils d'agents LLM peuvent être construits de la manière suivante :
Conception manuelle : Définir manuellement les caractéristiques des personnages.
Génération LLM : Automatiser l'expansion des paramètres de personnage par LLM.
Alignement des jeux de données : Construire sur des jeux de données réels pour améliorer l'authenticité des interactions.
2) Module mémoire
La mémoire est au cœur des agents LLM, soutenant la planification et la prise de décision adaptatives. La structure de mémoire simule le processus humain, se divisant principalement en deux catégories :
Mémoire unifiée : Mémoire à court terme, traitant les informations récentes. Optimisée par des techniques de capture de texte, de résumé de mémoire et de modification des mécanismes d'attention, mais limitée par la fenêtre de contexte.
Mémoire hybride : Combinaison de mémoire à court et à long terme, la mémoire à long terme étant stockée dans une base de données externe pour un rappel efficace.
Formats de mémoire : Formats courants de stockage de mémoire comprennent :
Langage naturel : Flexible et riche en sémantique.
Vecteurs d'intégration : Facilite la recherche rapide.
Base de données : Soutenir les requêtes par stockage structuré.
Liste structurée : Organisée sous forme de liste ou de hiérarchie.
Les agents d'opération mémoire interagissent avec la mémoire via les opérations suivantes :
Lecture de mémoire : Récupérer des informations pertinentes pour soutenir des décisions éclairées.
Écriture de mémoire : Stocker de nouvelles informations, éviter les répétitions et les débordements.
Réflexion sur la mémoire : Résumer les expériences, renforçant la capacité de raisonnement abstrait.
Basé sur le contenu de l'article (Agents génératifs)
Signification et défis de la recherche
Bien que le système de mémoire améliore les capacités des agents, il pose également des défis de recherche :
Évolutivité et efficacité : Les systèmes de mémoire doivent supporter une grande quantité d'informations et garantir une récupération rapide, comment optimiser la récupération de mémoire à long terme reste un point focal de la recherche.
Gestion des limitations de contexte : Les LLM actuels sont limités par la fenêtre de contexte, rendant difficile la gestion d'une mémoire volumineuse, la recherche explore des mécanismes d'attention dynamiques et des techniques de résumé pour étendre les capacités de traitement de la mémoire.
Biais et dérive dans la mémoire à long terme : La mémoire peut être biaisée, entraînant un traitement prioritaire des informations et une dérive de mémoire, nécessitant une mise à jour régulière et une correction des biais pour maintenir l'équilibre de l'agent.
Oubli catastrophique : Les nouvelles données recouvrent les anciennes, entraînant la perte d'informations clés, nécessitant l'utilisation de techniques de reprise d'expérience et de renforcement de la mémoire pour consolider la mémoire clé.
3) Capacités de perception
Les agents LLM améliorent leur compréhension et leurs capacités décisionnelles de l'environnement par le traitement de sources de données variées, similaire à la façon dont les humains s'appuient sur des entrées sensorielles. La perception multimodale intègre des entrées textuelles, visuelles et auditives, renforçant la capacité des agents à exécuter des tâches complexes. Voici les principaux types d'entrées et leurs applications :
Entrée textuelle : Le texte est le principal moyen de communication des agents LLM. Bien que les agents possèdent des compétences linguistiques avancées, comprendre les significations implicites derrière les instructions reste un défi.
Compréhension implicite : Ajuster les préférences par apprentissage par renforcement, gérer des instructions floues et inférer des intentions.
Capacités zéro-shot et peu-shot : Pouvoir répondre à de nouvelles tâches sans formation supplémentaire, adapté à des scénarios d'interaction variés.
Entrée visuelle : La perception visuelle permet aux agents de comprendre les relations entre objets et espaces.
Transformation d'image en texte : Générer des descriptions textuelles pour aider à traiter les données visuelles, mais pouvant entraîner une perte de détails.
Encodage basé sur Transformer : Comme les Transformers de vision, transformant les images en tokens compatibles avec le texte.
Outils de pontage : Comme BLIP-2 et Flamingo, utilisant une couche intermédiaire pour optimiser l'interfaçage visuel et textuel.
L'entrée auditive et la perception auditive permettent à l'agent d'identifier les sons et la parole, ce qui est particulièrement important dans des scénarios interactifs et à haut risque.
Reconnaissance et synthèse vocale : Comme Whisper (voix à texte) et FastSpeech (texte à voix).
Traitement des spectres audio : Transformer les spectres audio en images, améliorant la capacité d'analyse des signaux auditifs.
Défis et considérations de la recherche sur la perception multimodale :
Alignement et intégration de données : L'alignement efficace des données multimodales est nécessaire pour éviter des erreurs de perception et de réponse, la recherche se concentre sur l'optimisation des Transformers multimodaux et des couches d'attention croisées.
Évolutivité et efficacité : Le besoin de traitement multimodal est élevé, en particulier lors du traitement d'images et d'audio haute résolution, le développement de modèles à faible consommation de ressources et évolutifs est crucial.
Oubli catastrophique : Les agents intelligents multimodaux font face à l'oubli catastrophique, nécessitant des stratégies telles que la reprise prioritaire et l'apprentissage continu pour conserver efficacement des informations clés.
Génération de réponses sensibles au contexte : Traiter les données sensorielles prioritaires en fonction du contexte pour générer des réponses reste un point focal de la recherche, en particulier dans des environnements bruyants ou visuellement dominants.
4) Raisonnement et planification
Le module de raisonnement et de planification aide l'agent à résoudre efficacement des problèmes en décomposant des tâches complexes. À l'instar des humains, il peut élaborer des plans structurés, pouvant à la fois construire des plans complets à l'avance ou ajuster des stratégies en temps réel en fonction des retours d'informations. Les méthodes de planification sont classées selon le type de retour :
Certains agents élaborent d'abord un plan complet, exécutant selon un chemin unique ou plusieurs options sans modifier le plan.
D'autres agents ajustent leurs stratégies en temps réel en fonction des retours dans un environnement dynamique.
Planification sans retour : Dans des situations sans retour, l'agent élabore un plan complet dès le départ et l'exécute sans ajustement. Inclut la planification à chemin unique (exécution étape par étape) et la planification à multiples chemins (exploration simultanée de plusieurs options et choix du meilleur chemin).
Décomposition des tâches de raisonnement en étapes séquentielles, chaque étape suivant la précédente :
Chaîne de pensée (CoT) : Guider l'agent à résoudre des problèmes par étapes à partir de quelques exemples, améliorant la qualité de la sortie du modèle.
Zero-shot-CoT : Raisonnement sans exemples préétablis, utilisant l'invite "penser étape par étape", adapté à l'apprentissage zéro-shot.
Re-prompting : Découverte automatique d'invites CoT efficaces, sans entrée humaine.
Tiré de l'article CoT
5) Raisonnement multi-chemins
Contrairement au raisonnement à chemin unique, le raisonnement à multiples chemins permet à l'agent d'explorer plusieurs étapes en même temps, de générer et d'évaluer plusieurs solutions potentielles, choisissant le meilleur chemin, adapté aux problèmes complexes, en particulier dans des situations avec plusieurs voies possibles.
Exemple :
Autoconsistance de la chaîne de pensée (CoT-SC) : Échantillonner plusieurs chemins de raisonnement à partir de la sortie des invites CoT, en choisissant les étapes les plus fréquentes pour réaliser une "auto-intégration".
Arbre de pensée (ToT) : Stocker des étapes logiques sous forme d'arbre, évaluer la contribution de chaque "pensée" à la solution, naviguer à l'aide de recherche en largeur ou en profondeur.
Graphes de pensée (GoT) : Étendre le ToT en une structure graphique, la pensée étant un sommet, les dépendances des arêtes, permettant un raisonnement plus flexible.
Par raisonnement planifié (RAP) : Utiliser la recherche d'arbres Monte Carlo (MCTS) pour simuler plusieurs plans, le modèle de langage construit à la fois l'arbre de raisonnement et fournit des retours.
6) Planificateur externe
Lorsque le LLM fait face à des défis de planification dans un domaine spécifique, le planificateur externe fournit un soutien, intégrant les connaissances spécialisées manquantes au LLM.
LLM+P : Transformer les tâches en langage de définition de domaine de planification (PDDL), résolvant avec un planificateur externe, aidant les LLM à compléter des tâches complexes.
CO-LLM : Collaboration de modèles pour générer du texte, en sélectionnant alternativement les modèles pour générer des étiquettes, permettant aux meilleurs modes de collaboration d'émerger naturellement.
Planification avec retour : La planification avec retour permet à l'agent d'ajuster les tâches en temps réel en fonction des changements environnementaux, s'adaptant à des scénarios imprévisibles ou complexes.
Agents de rétroaction environnementale : Interagissant avec l'environnement, ajustent leurs plans en fonction des retours en temps réel, maintenant l'avancement des tâches.
ReAct : Combine raisonnement et suggestions d'actions pour créer des plans ajustables dans les interactions.
DEPS : Réviser les plans dans la planification des tâches, gérer les sous-objectifs inachevés.
SayPlan : Utiliser des diagrammes de scénarios et des transitions d'état pour affiner les stratégies, améliorant la perception contextuelle.
Tiré de l'article (ReAct)
7) Retour humain
Aider les agents à s'aligner avec les valeurs humaines en interagissant avec elles, pour éviter les erreurs. Exemple :
Monologue intérieur : Intégrer les retours humains dans la planification des agents pour garantir que les actions correspondent aux attentes humaines.
Le retour du modèle provenant de modèles pré-entraînés aide l'agent à s'auto-vérifier et à optimiser son raisonnement et ses actions. Exemple :
SelfCheck : Vérificateur étape par étape sans exemples, utilisé pour identifier les erreurs dans les chaînes de raisonnement et évaluer leur exactitude.
Réflexion : L'agent réfléchit par l'enregistrement des signaux de retour, favorisant l'apprentissage à long terme et la correction des erreurs.
Tiré de l'article (SelfCheck)
Défis et directions de recherche en raisonnement et planification : Bien que les modules de raisonnement et de planification améliorent les capacités des agents, ils rencontrent encore des défis :
Évolutivité et exigences informatiques : Des méthodes complexes comme ToT ou RAP nécessitent de nombreuses ressources informatiques, améliorer l'efficacité reste une priorité de recherche.
Complexité de l'intégration des retours : Intégrer efficacement des retours provenant de plusieurs sources, éviter la surcharge d'informations, est crucial pour améliorer l'adaptabilité sans sacrifier la performance.
Biais dans la prise de décision : Donner la priorité à certaines sources de retour ou chemins peut entraîner des biais ; combiner des techniques d'élimination des biais est la clé d'une planification équilibrée.
8) Action
Le module d'action est la dernière étape du processus décisionnel de l'agent, incluant :
Objectifs d'action : Les agents exécutent divers objectifs, tels que l'achèvement des tâches, la communication ou l'exploration de l'environnement.
Génération d'actions : Générer des actions par le rappel ou la planification, comme des actions basées sur la mémoire ou la planification.
Espace d'action : Comprend des connaissances internes et des outils externes, tels que des API, des bases de données ou des modèles externes pour exécuter des tâches. Par exemple, des outils comme HuggingGPT et ToolFormer utilisent des modèles externes ou des API pour l'exécution des tâches.
Bases de données et bibliothèques de connaissances : ChatDB utilise des requêtes SQL pour récupérer des informations spécifiques à un domaine, tandis que MRKL intègre des systèmes d'expertise et des outils de planification pour un raisonnement complexe.
Modèles externes : Les agents peuvent s'appuyer sur des modèles non-API pour exécuter des tâches spécialisées. Par exemple, ChemCrow utilise plusieurs modèles pour la découverte de médicaments, et MemoryBank utilise deux modèles pour améliorer la recherche textuelle.
Impact des actions : Les actions peuvent être classées selon leurs résultats :
Changements environnementaux : Comme la collecte de ressources ou la construction de structures dans Voyager et GITM, modifiant l'environnement.
Auto-influence : Comme les Agents génératifs, mettant à jour la mémoire ou élaborant de nouveaux plans.
Chaînes de tâches : Certaines actions déclenchent d'autres actions, comme Voyager construisant des structures après la collecte de ressources.
Élargissement de l'espace d'action : Concevoir des agents AI nécessite une architecture robuste et des compétences en matière de tâches. L'acquisition de capacités peut se faire de deux manières : ajustement et non ajustement.
Acquisition de capacités par ajustement :
Jeu de données annotées manuellement : Comme RET-LLM et EduChat, améliorant les performances des LLM par annotation humaine.
Jeux de données générés par LLM : Comme ToolBench, affiner LLaMA via des instructions générées par LLM.
Jeux de données du monde réel : Comme MIND2WEB et SQL-PaLM, améliorant les capacités des agents grâce à des données d'application réelles.
Acquisition de capacités sans ajustement : Lorsque l'ajustement n'est pas envisageable, les agents peuvent améliorer leurs capacités par l'ingénierie des invites et l'ingénierie des mécanismes.
Ingénierie des invites : guident le comportement des LLM par la conception d'invites, améliorant les performances.
Chaîne de pensée (CoT) : Ajouter des étapes de raisonnement intermédiaires, soutenant la résolution de problèmes complexes.
SocialAGI : Ajuster les dialogues en fonction de l'état psychologique de l'utilisateur.
Retroformer : Optimiser les décisions en réfléchissant sur les échecs passés.
L'ingénierie des mécanismes améliore les capacités des agents par des règles et des mécanismes dédiés.
DEPS : Optimiser les plans en améliorant la description des processus d'exécution, les retours d'information et le choix des objectifs pour améliorer la correction des erreurs.
RoCo : Ajuster les plans de coopération multi-robots en fonction des inspections environnementales.
Mécanisme de débat : Atteindre un consensus par la coopération.
Accumulation d'expérience
GITM : Mécanisme de mémoire basé sur le texte améliorant l'apprentissage et la capacité de généralisation.
Voyager : Optimisation de l'exécution des compétences par auto-retour.
Évolution autonome
LMA3 : Soutenir la re-marquage des objectifs et la fonction de récompense, permettant aux agents d'apprendre des compétences dans des environnements sans tâches spécifiques.
Tiré de l'article (Voyager)
L'ajustement peut considérablement améliorer la performance spécifique à une tâche, mais nécessite des modèles open source et consomme beaucoup de ressources. L'ingénierie des invites et l'ingénierie des mécanismes conviennent aux modèles open source et fermés, mais sont limitées par la fenêtre de contexte d'entrée et nécessitent une conception soignée.
3) Architecture des systèmes impliquant plusieurs agents
L'architecture multi-agents répartit les tâches entre plusieurs agents, chacun se concentrant sur différents aspects, améliorant la robustesse et l'adaptabilité. La coopération et le retour d'information entre agents renforcent l'efficacité globale et permettent d'ajuster dynamiquement le nombre d'agents selon les besoins. Cependant, cette architecture rencontre des défis de coordination, où la communication est cruciale pour éviter la perte d'informations ou les malentendus.
Pour faciliter la communication et la coordination entre agents, la recherche se concentre sur deux structures organisationnelles :
Structure horizontale : Tous les agents partagent et optimisent les décisions, synthétisant les décisions individuelles par des décisions collectives, adaptées aux scénarios de consultation ou d'utilisation d'outils.
Structure verticale : Un agent propose une solution préliminaire, d'autres agents fournissent des retours ou sont supervisés par un gestionnaire, adaptée aux tâches nécessitant des solutions raffinées, telles que la résolution de problèmes mathématiques ou le développement de logiciels.
Tiré de l'article (ChatDev)
1) Structure organisationnelle hybride
DyLAN combine des structures verticales et horizontales en une méthode hybride, les agents collaborant horizontalement au sein de la même couche et échangeant des informations à travers les étapes temporelles. DyLAN introduit un modèle de classement et un système de notation d'importance des agents, évaluant dynamiquement et sélectionnant les agents les plus pertinents pour continuer à collaborer, tandis que les agents sous-performants sont désactivés, créant une structure hiérarchique. Les agents de haut rang jouent un rôle clé dans les tâches et la composition d'équipe.
Les cadres multi-agents coopératifs maximisent l'efficacité en partageant des informations et en coordonnant des actions, en mettant l'accent sur les forces des agents pour réaliser une coopération complémentaire.
Tiré de l'article (Agentverse)
Les interactions collaboratives se divisent en deux types :
Coopération désordonnée : Plusieurs agents interagissent librement, sans ordre ou processus fixe, ressemblant à un brainstorming. Chaque agent fournit des retours, le système coordonne les agents pour intégrer les entrées et organiser les réponses, évitant le chaos, généralement en utilisant un mécanisme de vote à la majorité pour atteindre un consensus.
Coopération ordonnée : Les agents interagissent de manière séquentielle, suivant des processus structurés, chaque agent se concentrant sur la sortie du précédent, garantissant une communication efficace. Les tâches sont accomplies rapidement, évitant le chaos, mais nécessitent une validation croisée ou une intervention humaine pour prévenir l'amplification des erreurs.
Tiré de l'article MetaGPT
Cadre multi-agents antagoniste : Cadres coopératifs améliorant l'efficacité et la collaboration, tandis que les cadres antagonistes poussent les agents à évoluer par défi. Inspiré par la théorie des jeux, les interactions antagonistes encouragent les agents à améliorer leur comportement par le retour d'information et la réflexion. Par exemple, AlphaGo Zero améliore ses stratégies par auto-affrontement, les systèmes LLM améliorent la qualité de la sortie par des débats et des échanges de "œil pour œil". Bien que cette méthode favorise l'adaptabilité des agents, elle entraîne également des coûts de calcul et des risques d'erreur.
Comportements émergents dans les systèmes multi-agents, trois comportements émergents peuvent se produire :
Comportement volontaire : L'agent contribue activement des ressources ou aide les autres.
Comportement de cohérence : L'agent ajuste son comportement pour se conformer aux objectifs de l'équipe.
Comportements destructeurs : Les agents peuvent adopter des comportements extrêmes pour atteindre rapidement leurs objectifs, ce qui peut poser des risques pour la sécurité.
Tests de référence et évaluation : Les tests de référence sont des outils clés pour évaluer les performances des agents, des plateformes couramment utilisées incluent ALFWorld, IGLU et Minecraft, pour tester les capacités des agents en planification, collaboration et exécution de tâches. L'évaluation de l'utilisation des outils et des compétences sociales est également très importante, des plateformes comme ToolBench et SocKET évaluant respectivement l'adaptabilité et la compréhension sociale des agents.
Les jeux numériques sont devenus une plateforme importante pour la recherche AI, les agents de jeu basés sur LLM se concentrant sur les capacités cognitives, stimulant la recherche AGI.
Tiré de (Enquête sur les agents de jeux basés sur de grands modèles de langage)
Perception des agents dans les jeux : Dans les jeux vidéo, les agents comprennent l'état du jeu via des modules de perception, avec trois principales méthodes :
Accès aux variables d'état : Accéder aux données symboliques via l'API de jeu, adapté aux jeux ayant peu d'exigences visuelles.
Encodeurs visuels externes : Utiliser des encodeurs visuels pour transformer des images en texte, comme CLIP, aidant les agents à comprendre l'environnement.
Modèles de langage multimodal : Combinant des données visuelles et textuelles, augmentant l'adaptabilité des agents, comme GPT-4V.
Études de cas des agents de jeu
Cradle (jeu d'aventure) : Ce jeu exige que l'agent comprenne l'intrigue, résolve des énigmes et navigue, faisant face à des défis de soutien multimodal, de mémoire dynamique et de prise de décision. L'objectif de Cradle est de réaliser le contrôle informatique universel (GCC), permettant à l'agent d'exécuter n'importe quelle tâche informatique via des entrées d'écran et audio, avec une plus grande universalité.
PokéLLMon (jeux compétitifs) : Les jeux compétitifs, avec leurs règles strictes et leur taux de victoire comparable à celui des joueurs humains, deviennent la référence pour les performances de raisonnement et de planification. Plusieurs cadres multi-agents ont démontré des performances compétitives. Par exemple, l'agent LLM dans (les grands modèles de langage jouent à StarCraft II : Références et méthodes de résumé en chaîne) a affronté l'IA intégrée dans une version textuelle de StarCraft II. PokéLLMon est le premier agent LLM à atteindre une performance de niveau humain, obtenant un taux de victoire de 49 % en classement et 56 % en invitation dans le jeu tactique Pokémon. Ce cadre améliore la génération de connaissances et la génération d'actions cohérentes, évitant les hallucinations et les cycles de panique dans la chaîne de pensée. L'agent transforme les journaux d'état du serveur de combat en texte, assurant la cohérence des tours et soutenant le raisonnement basé sur la mémoire.
Les agents renforcent leur stratégie par quatre types de retours d'apprentissage, y compris les variations HP, les effets des compétences, l'estimation de la vitesse de la séquence d'actions, et l'effet de l'état des compétences, afin d'optimiser les stratégies et d'éviter d'utiliser des compétences inefficaces en boucle.
PokéLLMon utilise des ressources externes (comme Bulbapedia) pour acquérir des connaissances, telles que des types de résistances et des effets de compétences, aidant l'agent à utiliser plus précisément des compétences spéciales. De plus, en évaluant les méthodes CoT, Self-Consistency et ToT, il a été constaté que Self-Consistency augmente considérablement le taux de victoire.
ProAgent (jeux de collaboration) : Les jeux de collaboration nécessitent de comprendre les intentions des coéquipiers et de prédire les actions, en accomplissant des tâches par coopération explicite ou implicite. La coopération explicite est très efficace mais moins flexible, tandis que la coopération implicite repose sur la prédiction des stratégies des coéquipiers pour des interactions adaptatives. Dans (Overcooked), ProAgent a montré sa capacité à coopérer de manière implicite, son processus central se décomposant en cinq étapes :
Collecte de connaissances et transformation d'état : Extraire les connaissances pertinentes aux tâches et générer des descriptions linguistiques.
Planification des compétences : Inférer les intentions des coéquipiers et élaborer un plan d'action.
Correction de croyance : Mettre à jour dynamiquement la compréhension des comportements des coéquipiers pour réduire les erreurs.
Validation des compétences et exécution : Ajuster les plans par itérations pour assurer l'efficacité des actions.
Stockage de mémoire : Enregistrer les interactions et les résultats pour optimiser les décisions futures.
Parmi eux, le mécanisme de correction des croyances est particulièrement critique, assurant que l'agent met à jour sa compréhension au fur et à mesure des interactions, améliorant la perception contextuelle et l'exactitude des décisions.
ProAgent a surpassé cinq méthodes d'auto-affrontement et d'entraînement basées sur des foules.
2) Agents génératifs (simulation)
Comment les rôles virtuels reflètent-ils la profondeur et la complexité du comportement humain ? Bien que les premiers systèmes d'IA comme SHRDLU et ELIZA aient tenté des interactions en langage naturel, les méthodes basées sur des règles et l'apprentissage par renforcement ont également fait des progrès dans les jeux, mais elles ont des limites en matière de cohérence et d'interaction ouverte. Aujourd'hui, les agents combinant LLM et architecture multicouche surmontent ces limites, possédant la capacité de stocker des souvenirs, de réfléchir sur des événements et de s'adapter aux changements. Des recherches montrent que ces agents peuvent non seulement simuler un comportement humain réel, mais aussi montrer des capacités émergentes pour transmettre des informations, établir des relations sociales et coordonner des comportements, rendant les personnages virtuels plus réalistes.
Tiré de (L'émergence et le potentiel des agents de grands modèles de langage : une enquête)
Vue d'ensemble de l'architecture : Cette architecture combine perception, récupération de mémoire, réflexion, planification et réaction. L'agent traite les observations en langage naturel à l'aide d'un module de mémoire, évaluant et récupérant des informations en fonction de leur actualité, importance et pertinence contextuelle, tout en générant des réflexions basées sur des souvenirs passés, offrant des aperçus profonds sur les relations et la planification. Le module de raisonnement et de planification fonctionne de manière similaire à un cycle plan-action.
Résultats de simulation : L'étude a simulé la diffusion d'informations lors d'une fête de la Saint-Valentin et d'une élection municipale, la notoriété des candidats à la mairie ayant augmenté de 4 % à 32 % en deux jours, et la notoriété de la fête de 4 % à 52 %, avec une proportion d'informations fausses de seulement 1,3 %. Les agents ont organisé la fête par coordination spontanée, formant un nouveau réseau social dont la densité est passée de 0,167 à 0,74. La simulation a démontré un partage d'informations et un mécanisme de coordination sociale sans intervention externe, offrant un aperçu pour de futures expériences en sciences sociales.
Voyager (Fabrication et exploration) : Dans Minecraft, l'agent peut exécuter des tâches de fabrication ou explorer de manière autonome. Les tâches de fabrication dépendent de la planification LLM et de la décomposition des tâches, tandis que l'exploration autonome identifie les tâches par apprentissage des cours, les objectifs étant générés par LLM. Voyager est un agent d'apprentissage à vie incarné, combinant un cours automatique, une bibliothèque de compétences et des mécanismes de retour, démontrant le potentiel d'exploration et d'apprentissage.
Cours automatiques : Utiliser LLM pour générer des objectifs liés à l'état de l'agent et à l'avancement de l'exploration, rendant les tâches progressivement plus complexes. L'agent génère du code modulaire pour exécuter des tâches et retourne les résultats via des invites de chaîne de pensée, modifiant le code si nécessaire. Une fois réussie, le code est stocké dans une bibliothèque de compétences pour une utilisation future.
Le cadre Voyager a considérablement amélioré l'efficacité de déverrouillage des arbres technologiques, avec des vitesses de déverrouillage du bois, de la pierre et du fer respectivement 15,3 fois, 8,5 fois et 6,4 fois plus rapides, devenant le seul cadre à déverrouiller le diamant. Sa distance d'exploration est 2,3 fois plus longue que la référence, découvrant 3,3 fois plus de nouveaux articles, démontrant une capacité d'apprentissage à vie exceptionnelle.
4) Applications potentielles dans le domaine des jeux 1) Gameplay piloté par des agents
Simulation multi-agents : Les rôles AI agissent de manière autonome, promouvant un gameplay dynamique.
Unités intelligentes de jeux de stratégie : Les agents s'adaptent à l'environnement et prennent des décisions de manière autonome en fonction des objectifs du joueur.
Terrain d'entraînement AI : Les joueurs conçoivent et entraînent l'IA pour accomplir des tâches.
2) NPC et mondes virtuels améliorés par AI
NPC en monde ouvert : Les NPC alimentés par LLM influencent l'économie et les dynamiques sociales.
Dialogues authentiques : Améliorer l'expérience d'interaction des NPC.
Écosystème virtuel : L'évolution des systèmes écologiques alimentée par l'IA.
Événements dynamiques : Gestion en temps réel des activités en jeu.
3) Narration dynamique et soutien aux joueurs
Narration adaptative : L'agent génère des tâches et des histoires personnalisées.
Assistant de joueur : Fournir des conseils et un soutien interactif.
AI de réponse émotionnelle : Interagir en fonction des émotions des joueurs.
4) Éducation et création
Adversaires AI : S'adapter aux stratégies des joueurs dans la compétition et la simulation.
Jeux éducatifs : Les agents fournissent un enseignement personnalisé.
Création assistée : Générer du contenu de jeu, abaissant les barrières de développement.
5) Applications dans le domaine de la cryptographie et de la finance
Les agents opèrent de manière autonome via la blockchain, gérant des portefeuilles, des transactions et interagissant avec des protocoles DeFi.
Portefeuille de contrats intelligents : Soutenir la signature multiple et l'abstraction de comptes, renforçant l'autonomie des agents.
Gestion des clés privées : Utiliser des calculs multipartites (MPC) ou des environnements d'exécution de confiance (TEE) pour garantir la sécurité, par exemple avec les outils d'agents AI développés par Coinbase.
Ces technologies ouvrent de nouvelles opportunités pour les interactions autonomes des agents sur la chaîne et les applications écologiques cryptographiques.
5) Applications des agents dans le domaine de la blockchain
1) Raisonnement des agents vérificateurs
La validation hors chaîne est un sujet brûlant dans la recherche sur la blockchain, principalement appliquée à des calculs de haute complexité. Les directions de recherche incluent les preuves à connaissance nulle, la vérification optimiste, les environnements d'exécution de confiance (TEE) et la théorie des jeux économiques cryptographiques.
Validation de la sortie des agents : Confirmer les résultats de raisonnement des agents via un validateur sur la chaîne, permettant aux agents d'être exécutés de manière externe et de mettre en chaîne des résultats de raisonnement fiables, similaire à un oracle décentralisé.
Cas d'utilisation : Modulus Labs "Leela vs. the World" utilise des circuits à connaissance nulle pour vérifier les mouvements des jeux, combinant le marché prédictif et la sortie AI vérifiable.
2) Collaboration des agents cryptographiques
Les systèmes de nœuds distribués peuvent faire fonctionner des systèmes multi-agents et parvenir à un consensus.
Cas d'utilisation Ritual : Exécuter des décisions d'action des agents en fonction de l'exécution de LLM via plusieurs nœuds, combinant validation sur la chaîne et vote.
Protocole Naptha : Fournir un marché de tâches et un système de vérification des flux de travail pour la collaboration et la vérification des tâches des agents.
Oracle AI décentralisé : Comme le protocole Ora, soutenant l'exploitation décentralisée des agents et l'établissement de consensus.
3) Cadre Eliza
Développé par a16z, un cadre open source de multi-agents conçu pour la blockchain, soutenant la création et la gestion d'agents intelligents personnalisés.
Caractéristiques : Architecture modulaire, mémoire à long terme, intégration de plateformes (supportant Discord, X, Telegram, etc.).
Moteur de confiance : Combinant des transactions de tokens automatisées, évaluer et gérer les scores de confiance des recommandations.
4) Autres applications des agents
Acquisition décentralisée de capacités : Incitations par mécanismes de récompense pour le développement d'outils et de jeux de données, comme la création de bibliothèques de compétences et la navigation dans les protocoles.
Agents de marché prédictifs : Alliant marché prédictif et trading autonome des agents, tels que Gnosis et Autonolas, soutiennent les prédictions et services de réponse sur la chaîne.
Autorisation de gouvernance par agents : Analyser automatiquement les propositions dans les DAO par le biais des agents et voter.
Agents tokenisés : Partage des revenus des agents, tels que MyShell et Virtuals Protocol, soutenant des mécanismes de partage des bénéfices.
Gestion des intentions DeFi : Les agents optimisent l'expérience utilisateur dans un environnement multi-chaînes, exécutant automatiquement des transactions.
Émission de tokens autonome : Les agents émettent des tokens, augmentant l'attrait du marché des tokens.
Artiste autonome : Comme Botto, alliant vote communautaire et création de NFT sur la chaîne, soutenant la création et le partage des bénéfices des agents.
Agents de jeu économisés : AI Arena et d'autres associant apprentissage par renforcement et apprentissage par imitation, conçoivent des compétitions de jeu en ligne 24/7.
6) Dynamiques et perspectives récentes
Plusieurs projets explorent les points de convergence entre la blockchain et l'IA, avec des domaines d'application riches. La suite discutera spécifiquement des agents AI sur la chaîne. 1) Capacités prédictives : La prédiction est clé pour la prise de décision. Les prédictions traditionnelles se divisent en prédictions statistiques et de jugement, ces dernières dépendant des experts, coûteuses et lentes.
Progrès de la recherche :
Grâce à la recherche d'informations et à l'amélioration des inférences, la précision des prédictions des grands modèles de langage (LLMs) est passée de 50 % à 71,5 %, proche des 77 % de prédiction humaine.
L'intégration de 12 modèles prédit des résultats proches de ceux d'une équipe humaine, démontrant que la "sagesse collective" améliore la fiabilité.
2) Rôle-jouer (Roleplay)
Les LLM se distinguent dans le domaine du jeu de rôle, combinant intelligence sociale et mécanismes de mémoire, capables de simuler des interactions complexes.
Applications : Utilisées pour la simulation de rôles, les interactions de jeux et les dialogues personnalisés.
Méthode : Combiner la génération augmentée par recherche (RAG) et l'ingénierie des dialogues par optimisation des performances via des invites peu-shot.
Innovation :
RoleGPT extrait dynamiquement le contexte des personnages, améliorant le réalisme.
Character-LLM reproduit les traits de personnages historiques à l'aide de données biographiques, restituant avec précision les rôles.
Ces technologies ont élargi les applications de l'IA dans des domaines tels que la simulation sociale et l'interaction personnalisée.
Tiré de l'article (Character-LLM)
Applications de RPLA (Rôle-jouer Langage Agent)
Voici une liste concise de certaines applications RPLA :
NPC interactifs dans les jeux : Créer des personnages dynamiques avec une intelligence émotionnelle pour améliorer l'immersion des joueurs.
Simulation de personnages historiques : Reproduire des personnages historiques, comme Socrate ou Cléopâtre, pour des dialogues éducatifs ou exploratoires.
Assistant à la création d'histoires : Fournit un riche soutien narratif et dialogique aux écrivains, joueurs de RPG et créateurs.
Performance virtuelle : Jouer des acteurs ou des personnalités publiques pour des scénarios de théâtre interactif, d'événements virtuels, etc.
Co-création AI : Collaborer avec l'IA pour créer de l'art, de la musique ou des histoires dans un style spécifique.
Partenaire d'apprentissage linguistique : Simuler des locuteurs natifs pour fournir une pratique linguistique immersive.
Simulation sociale : Construire des sociétés futures ou imaginaires, tester des scénarios culturels, éthiques ou comportementaux.
Compagnon virtuel personnalisé : Créer un assistant ou un partenaire personnalisé avec une personnalité, des traits et des souvenirs uniques.
7) Problèmes d'alignement de l'IA
Évaluer si les LLM sont conformes aux valeurs humaines est une tâche complexe, pleine de défis en raison de la diversité et de l'ouverture des scénarios d'application réels. La conception de tests d'alignement complets nécessite un investissement considérable, mais les ensembles de données de tests statiques existants peinent à refléter rapidement les problèmes émergents.
Actuellement, l'alignement de l'IA est largement réalisé par une supervision humaine externe, comme la méthode RLHF (apprentissage par renforcement à partir de retours humains) d'OpenAI, un processus prenant six mois et nécessitant d'importantes ressources pour optimiser l'alignement de GPT-4.
Certaines recherches tentent également de réduire la supervision humaine, en utilisant des LLM plus grands pour effectuer des audits, mais une nouvelle direction consiste à analyser l'alignement des modèles à l'aide de cadres d'agents. Par exemple :
1) Cadre ALI-Agent
Détecter des risques subtils ou de "longue traîne" en générant dynamiquement des scénarios réels, surmontant les limitations des tests statiques traditionnels.
Processus en deux étapes :
Génération de scénarios : Générer des scénarios de risque potentiel basés sur des ensembles de données ou des requêtes internet, en utilisant le module de mémoire pour appeler des évaluations passées.
Optimisation de scénarios : Si aucun problème d'alignement n'est détecté, optimiser les scénarios par retour d'informations du modèle cible.
Composition des modules : Module de mémoire, module d'outils (comme la recherche en ligne) et module d'action. Les expériences montrent qu'ils peuvent efficacement révéler des problèmes d'alignement non identifiés dans les LLM.
2) Méthode MATRIX
Basé sur une méthode d'auto-alignement à "multiple rôles", inspirée des théories sociologiques, pour comprendre les valeurs à travers des simulations d'interaction multipartite.
Caractéristiques essentielles :
Méthode Monopolylogue : Un seul modèle joue plusieurs rôles et évalue l'impact social.
Régulateur social : Enregistrer les règles d'interaction et les résultats de simulation.
Innovations : Éliminer les règles préétablies, façonner la conscience sociale des LLM par des interactions simulées et utiliser des données simulées pour ajuster rapidement le modèle. Les expériences montrent que l'alignement MATRIQUE est meilleur que les méthodes existantes et surpasse GPT-4 dans certains tests de référence.
Tiré de (article MATRIX)
Il reste beaucoup de recherches sur l'alignement des agents AI, qui pourraient mériter un article séparé.
Gouvernance et organisation : L'organisation s'appuie sur des procédures opérationnelles standard (SOP) pour coordonner les tâches et répartir les responsabilités. Par exemple, dans une entreprise de logiciels, les chefs de produits utilisent des SOP pour analyser le marché et les besoins des utilisateurs, et élaborent des documents de spécifications de produit (PRD) pour orienter le processus de développement. Cette structure est adaptée à un cadre multi-agents, comme MetaGPT, où les rôles des agents sont clairs, possédant des outils et des capacités de planification pertinents, et optimisant les performances par le retour d'information.
L'architecture basée sur les agents en robotique améliore les performances des robots dans la planification de tâches complexes et les interactions adaptatives. Les politiques robotiques sous conditions linguistiques aident les robots à comprendre l'environnement et à générer des séquences d'actions exécutables en fonction des exigences de la tâche.
Cadre d'architecture : LLM combiné avec une planification classique, capable d'analyser efficacement les commandes en langage naturel et de les transformer en séquences de tâches exécutables. Le cadre SayCan combine apprentissage par renforcement et planification des capacités, permettant aux robots d'exécuter des tâches dans la réalité, garantissant la faisabilité et l'adaptabilité des instructions. Le Monologue intérieur améliore encore l'adaptabilité du robot, s'ajustant par le retour pour réaliser une auto-correction.
Cadre d'exemple SayCan : Permettre aux robots d'évaluer et d'exécuter des tâches face à des instructions en langage naturel (comme prendre une boisson sur la table) et d'assurer une correspondance avec les capacités réelles. 
SayPlan : SayPlan utilise des 3DSGs pour planifier efficacement des tâches dans plusieurs pièces, maintenant la perception contextuelle de l'espace et vérifiant le plan pour garantir l'exécution des tâches dans un large espace.
Monologue intérieur : Ce cadre optimise l'exécution par des retours en temps réel, s'adaptant aux changements environnementaux, adapté aux tâches de cuisine et au réarrangement de bureau, etc.
RoCo : Une méthode de coopération multi-robots zero-shot, combinant raisonnement en langage naturel et planification de mouvements, générant des plans de sous-tâches et optimisant par validation environnementale pour garantir la faisabilité.
La recherche scientifique (Empowering Biomedical Discovery with AI Agents) propose un cadre multi-agents, combinant outils et experts pour soutenir la découverte scientifique. L'article décrit cinq schémas de collaboration :
Agents de brainstorming
Agents de consultation d'experts
Agents de débat de recherche
Agents de discussion en table ronde
Agents de laboratoire autonomes
L'article discute également des niveaux d'autonomie des agents AI :
Niveau 0 : Les modèles ML aident les scientifiques à formuler des hypothèses, comme AlphaFold-Multimer prédisant les interactions protéiques.
Niveau 1 : L'agent agit en tant qu'assistant pour soutenir les tâches et la définition des objectifs. ChemCrow utilise des outils d'apprentissage machine pour élargir l'espace d'action, soutenant la recherche en chimie organique et découvrant avec succès de nouveaux pigments.
Niveau 2 : Au niveau 2, les agents AI collaborent avec les scientifiques pour affiner les hypothèses, exécuter des tests d'hypothèses et utiliser des outils pour la découverte scientifique. Coscientist est un agent intelligent basé sur plusieurs LLM, capable de planifier, de concevoir et d'exécuter de manière autonome des expériences complexes, utilisant des outils tels qu'Internet, des API et la collaboration avec d'autres LLM, voire contrôler directement le matériel. Ses capacités sont mises en évidence dans la planification de synthèse chimique, la recherche de documentation matérielle, l'exécution de commandes avancées, le traitement de liquides, la résolution de problèmes scientifiques complexes, et plus encore.
Niveau 3 : Au niveau 3, les agents AI peuvent dépasser les limites de la recherche actuelle et émettre de nouvelles hypothèses. Bien que ce niveau ne soit pas encore atteint, l'optimisation de leur propre travail pourrait accélérer le développement de l'IA.
8) Résumé : L'avenir des agents AI
Les agents AI transforment le concept et l'application de l'intelligence, redéfinissant la prise de décision et l'autonomie. Ils sont devenus des participants actifs dans des domaines tels que la découverte scientifique et les cadres de gouvernance, non seulement comme outils, mais aussi comme partenaires de collaboration. Avec les avancées technologiques, nous devons repenser comment équilibrer le pouvoir de ces agents avec les problèmes éthiques et sociaux potentiels, assurant que leur impact est contrôlable, stimulant le développement technologique tout en réduisant les risques.
Sept enseignements des agents AI : recherche et applications

Découvrez-en plus sur le créateur

Dernières actualités