Depuis le second semestre de cette année, le sujet des agents IA a continué à gagner en popularité. Au départ, le chatbot IA terminal of truths a attiré l'attention grâce à ses publications et réponses humoristiques sur X (similaires à « Robert » sur Weibo) et a reçu un financement de 50 000 dollars de Marc Andreessen, le fondateur d'a16z. Inspirés par son contenu, des personnes ont créé le jeton GOAT, qui a vu sa valeur augmenter de plus de 10 000 % en seulement 24 heures. Le sujet des agents IA a ensuite suscité l'attention de la communauté Web3. Par la suite, le premier fonds de trading IA décentralisé basé sur Solana, ai16z, a vu le jour, lançant le cadre de développement d'agents IA Eliza, et déclenchant une bataille de jetons. Cependant, la communauté n'a toujours pas une idée claire du concept d'agent IA : quel est le véritable cœur de l'agent IA ? En quoi diffère-t-il des robots de trading sur Telegram ?
Fonctionnement : perception, raisonnement et prise de décision autonome
L'agent IA est un système d'agent intelligent basé sur des modèles de langage de grande taille (LLM), capable de percevoir l'environnement, de prendre des décisions par raisonnement, et d'accomplir des tâches complexes en appelant des outils ou en exécutant des opérations. Flux de travail : module de perception (obtention des entrées) → LLM (compréhension, raisonnement et planification) → appel d'outils (exécution des tâches) → retour d'information et optimisation (validation et ajustement).
Plus précisément, l'agent IA commence par acquérir des données de l'environnement extérieur (texte, audio, images, etc.) via le module de perception et les transforme en informations structurées pouvant être traitées. Le LLM, en tant que composant central, offre de puissantes capacités de compréhension et de génération du langage naturel, agissant comme le « cerveau » du système. Sur la base des données d'entrée et des connaissances existantes, le LLM effectue un raisonnement logique, génère des solutions possibles ou élabore un plan d'action. Ensuite, l'agent IA accomplit des tâches spécifiques en appelant des outils externes, des plugins ou des API, et valide et ajuste les résultats en fonction des retours, formant ainsi un cycle d'optimisation.
Dans le contexte des applications Web3, quelles sont les différences entre un agent IA et un robot de trading sur Telegram ou un script d'automatisation ? Prenons l'arbitrage comme exemple : les utilisateurs souhaitent effectuer des transactions d'arbitrage lorsque le profit dépasse 1 %. Avec un robot de trading sur Telegram prenant en charge l'arbitrage, l'utilisateur définit une stratégie de trading où le profit est supérieur à 1 %, et le bot commence à exécuter. Cependant, lorsque le marché est fortement volatil et que les opportunités d'arbitrage changent constamment, ces bots manquent de capacité d'évaluation des risques et exécutent simplement l'arbitrage dès que la condition de profit supérieur à 1 % est remplie. En revanche, l'agent IA peut ajuster automatiquement la stratégie. Par exemple, si le profit d'une transaction dépasse 1 %, mais qu'une analyse des données indique que le risque est trop élevé, la situation du marché pourrait soudainement changer et entraîner une perte, il décidera de ne pas exécuter cet arbitrage.
Ainsi, l'agent IA possède une auto-adaptabilité, et son avantage principal réside dans sa capacité à apprendre par lui-même et à prendre des décisions autonomes, en ajustant sa stratégie comportementale en fonction des signaux de retour provenant de l'interaction avec l'environnement (marché, comportements des utilisateurs, etc.), améliorant constamment l'efficacité de l'exécution des tâches. Il peut également prendre des décisions en temps réel sur la base de données externes et optimiser en continu sa stratégie de décision via l'apprentissage par renforcement.
Cela ressemble-t-il à un solveur basé sur un cadre d'intention ? L'agent IA est également un produit basé sur l'intention, et la principale différence avec le solveur sous ce cadre d'intention est que le solveur repose sur des algorithmes précis, ayant une rigueur mathématique, tandis que la prise de décision de l'agent IA dépend de l'entraînement des données, nécessitant souvent un processus d'essai-erreur pour se rapprocher de la solution optimale.
Cadres principaux d'agents IA
Le cadre d'agent IA est l'infrastructure utilisée pour créer et gérer des agents intelligents. Actuellement, dans le Web3, des cadres populaires incluent Eliza d'ai16z, ZerePy de zerebro et GAME de Virtuals.
Eliza est un cadre d'agent IA multifonctionnel, construit avec TypeScript, qui prend en charge le fonctionnement sur plusieurs plateformes (comme Discord, Twitter, Telegram, etc.) et, grâce à une gestion de mémoire complexe, peut se souvenir des conversations et contextes antérieurs, maintenant des caractéristiques de personnalité et des réponses de connaissance stables et cohérentes. Eliza utilise un système RAG (Retrieval Augmented Generation), capable d'accéder à des bases de données ou des ressources externes pour générer des réponses plus précises. De plus, Eliza intègre des plugins TEE, permettant le déploiement dans un TEE, garantissant ainsi la sécurité et la confidentialité des données.
GAME est un cadre qui habilite et propulse l'agent IA à prendre des décisions et à agir de manière autonome. Les développeurs peuvent personnaliser le comportement des agents selon leurs besoins, étendre leurs fonctionnalités et fournir des opérations personnalisées (comme la publication sur les réseaux sociaux, les réponses, etc.). Les différentes fonctionnalités dans le cadre, telles que l'emplacement environnemental de l'agent et les tâches, sont divisées en plusieurs modules, facilitant la configuration et la gestion par les développeurs. Le cadre GAME divise le processus décisionnel de l'agent IA en deux niveaux : la planification de haut niveau (HLP) et la planification de bas niveau (LLP), chacune responsable de tâches et décisions à différents niveaux. La planification de haut niveau est responsable de la définition des objectifs globaux et de la planification des tâches de l'agent, prenant des décisions basées sur les objectifs, la personnalité, les informations de contexte et l'état de l'environnement, et détermine la priorité des tâches. La planification de bas niveau se concentre sur l'exécution, transformant les décisions de la planification de haut niveau en étapes d'opération concrètes, choisissant des fonctionnalités et méthodes d'opération appropriées.
ZerePy est un cadre Python open source utilisé pour déployer des agents IA sur X. Ce cadre intègre des LLM fournis par OpenAI et Anthropic, permettant aux développeurs de construire et de gérer des agents de médias sociaux, exécutant automatiquement des opérations telles que la publication de tweets, les réponses aux tweets, les likes, etc. Chaque tâche peut se voir attribuer des poids différents selon son importance. ZerePy fournit une interface en ligne de commande (CLI) simple, facilitant le démarrage et la gestion rapides des agents par les développeurs. De plus, le cadre offre un modèle Replit (une plateforme en ligne pour l'édition et l'exécution de code), permettant aux développeurs de commencer rapidement à utiliser ZerePy sans configuration complexe de l'environnement local.
Pourquoi l'agent IA fait-il face à des FUD ?
L'agent IA semble intelligent, capable de réduire la barrière d'entrée et d'améliorer l'expérience utilisateur, pourquoi la communauté ressent-elle du FUD ? La raison est que l'agent IA est essentiellement encore un outil, ne pouvant pas encore accomplir l'ensemble du flux de travail, mais seulement améliorer l'efficacité et économiser du temps à certains points. Actuellement, son rôle se concentre principalement sur l'aide aux utilisateurs pour émettre des MeMe d'un simple clic et gérer les comptes de médias sociaux. La communauté plaisante en disant « les actifs appartiennent aux développeurs, les passifs appartiennent à l'IA ».
Cependant, cette semaine, l'agent IA a été publié en tant que prévente de jetons par aiPool, utilisant la technologie TEE pour réaliser une décentralisation. La clé privée du portefeuille de cet agent IA est générée dynamiquement dans un environnement TEE, assurant la sécurité. Les utilisateurs peuvent envoyer des fonds (par exemple, SOL) au portefeuille contrôlé par l'agent IA, qui crée ensuite des jetons selon des règles établies et lance un pool de liquidité sur un DEX, tout en distribuant des jetons aux investisseurs éligibles. L'ensemble du processus ne nécessite pas de dépendre de tiers intermédiaires, étant entièrement réalisé par l'agent IA dans un environnement TEE, évitant ainsi les risques de rug pull courants dans la DeFi. On peut donc voir que l'agent IA se développe progressivement. Je pense que l'agent IA peut aider les utilisateurs à réduire la barrière d'entrée et à améliorer l'expérience, même si cela ne simplifie qu'une partie du processus d'émission d'actifs, c'est déjà significatif. Mais d'un point de vue macro du Web3, l'agent IA, en tant que produit hors chaîne, n'est actuellement qu'un outil d'assistance pour les contrats intelligents, donc il n'est pas nécessaire de trop exagérer ses capacités. Étant donné qu'à part MeMe, il n'y a pas eu de narration d'effet de richesse significatif dans la seconde moitié de cette année, il est normal que le battage médiatique autour de l'agent IA se concentre sur MeMe. Seul MeMe ne peut pas maintenir une valeur à long terme, donc si l'agent IA peut apporter plus d'innovations dans le processus de trading, fournissant une valeur concrète, il pourrait évoluer en un outil infra courant.