Titre original : (L'ère des agents : la rencontre et la symbiose de l'IA et de la Crypto)

Auteur original : YBB Capital Research

Un, la nouveauté et le déclin de l'attention

Au cours de l'année passée, en raison de l'absence de narration au niveau de l'application, incapable de correspondre à l'explosion des infrastructures, le domaine de la crypto est progressivement devenu un jeu de ressources d'attention. De Silly Dragon à Goat, de Pump.fun à Clanker, la nouveauté et le déclin de l'attention ont rendu cette bataille de plus en plus interne. Commençant par la manière la plus conventionnelle de capter l'attention, elle a rapidement évolué vers une plateforme unifiée pour les demandeurs et les fournisseurs d'attention, jusqu'à ce que les organismes silicoïdes deviennent de nouveaux fournisseurs de contenu. Parmi les formes variées des Meme Coin, une existence capable de faire converger les petits investisseurs et les VC a enfin émergé : l'Agent IA.

L'attention est finalement un jeu à somme nulle, mais la spéculation peut effectivement favoriser la croissance sauvage des choses. Dans notre article sur UNI, nous avons déjà évoqué le début de l'âge d'or du blockchain, la croissance explosive de DeFi a été déclenchée par l'ère du mining LP initiée par Compound Finance. Entrer et sortir de milliers, voire de milliers de pools miniers sur Apy est la manière de jouer la plus primitive sur la chaîne à cette époque, bien que le résultat final ait été l'effondrement de divers pools. Cependant, l'afflux fou de mineurs d'or a effectivement laissé une liquidité sans précédent dans la blockchain, et DeFi a finalement échappé à la pure spéculation pour former un secteur mature, répondant aux besoins financiers des utilisateurs dans divers aspects tels que le paiement, le trading, l'arbitrage et le staking. Actuellement, l'Agent IA traverse également cette phase sauvage, et nous explorons comment la Crypto peut mieux fusionner avec l'IA pour finalement amener la couche d'application à de nouveaux sommets.

Deux, comment l'agent agit de manière autonome

Dans l'article précédent, nous avons brièvement introduit l'origine des AI Meme : Truth Terminal, ainsi que les perspectives d'avenir pour les Agents IA. Cet article se concentre d'abord sur l'Agent IA lui-même.

Commençons par la définition de l'Agent IA. Le terme Agent est relativement ancien dans le domaine de l'IA, mais sa définition demeure floue. Il souligne principalement l'autonomie, c'est-à-dire que tout AI capable de percevoir son environnement et de réagir peut être qualifié d'Agent. Dans la définition actuelle, l'Agent IA se rapproche davantage de l'agent intelligent, c'est-à-dire un système conçu pour imiter les décisions humaines dans les grands modèles, considéré par le milieu académique comme la voie la plus prometteuse vers l'AGI (intelligence artificielle générale).

Dans les premières versions de GPT, nous pouvions clairement ressentir que les grands modèles ressemblaient à des humains, mais lors de la réponse à de nombreuses questions complexes, les grands modèles ne pouvaient fournir que des réponses approximatives. La raison essentielle est que les grands modèles de l'époque étaient basés sur des probabilités plutôt que sur des causes, et qu'en outre, ils manquaient des capacités humaines telles que l'utilisation d'outils, la mémoire, et la planification. Les Agents IA peuvent combler ces lacunes. On peut donc résumer cela par une formule : Agent IA = LLM + Planification + Mémoire + Outils.

Les grands modèles basés sur des mots d'invite (Prompt) ressemblent davantage à un humain statique ; ils n'ont de vie que lorsque nous les interrogeons. L'objectif des agents est d'être un humain plus réel. Actuellement, les agents dans le secteur reposent principalement sur les modèles ajustés de la version Llama 70b ou 405b de Meta (les paramètres étant différents), capables de mémoriser et d'utiliser des outils d'API. Dans d'autres domaines, ils peuvent encore nécessiter l'aide ou l'entrée humaine (y compris l'interaction avec d'autres agents). C'est pourquoi nous constatons que les principaux agents dans le secteur existent toujours sous la forme de KOL dans les réseaux sociaux. Pour que les agents ressemblent davantage à des humains, il est nécessaire d'intégrer des capacités de planification et d'action, et la sous-catégorie de planification, la chaîne de pensée, est particulièrement cruciale.

Trois, Chaîne de pensée (Chain of Thought, CoT)

Le concept de chaîne de pensée (Chain of Thought, CoT) est apparu pour la première fois dans un article publié par Google en 2022 (Chain-of-Thought Prompting Elicits Reasoning in Large Language Models), qui souligne que des étapes de raisonnement intermédiaires peuvent être générées pour améliorer la capacité de raisonnement du modèle, aidant le modèle à mieux comprendre et résoudre des problèmes complexes.

Un prompt CoT typique comprend trois parties : description de la tâche avec des instructions claires, fondement logique supportant la résolution de la tâche ou principes théoriques, exemples de solutions spécifiques. Cette approche structurée aide le modèle à comprendre les exigences de la tâche, à se rapprocher progressivement de la réponse par un raisonnement logique, améliorant ainsi l'efficacité et la précision de la résolution de problèmes. Le CoT est particulièrement adapté aux tâches nécessitant une analyse approfondie et un raisonnement en plusieurs étapes. Pour des tâches simples, le CoT peut ne pas apporter d'avantage évident, mais pour des tâches complexes, il peut améliorer considérablement la performance du modèle, réduisant le taux d'erreur par une stratégie de résolution par étapes et augmentant la qualité de l'achèvement de la tâche.

Lors de la construction de l'Agent IA, le CoT joue un rôle clé. L'Agent IA doit comprendre les informations reçues et prendre des décisions raisonnables en conséquence. Le CoT, en fournissant une manière ordonnée de penser, aide l'Agent à traiter et analyser efficacement les informations d'entrée, transformant les résultats d'analyse en directives d'action concrètes. Cette méthode renforce non seulement la fiabilité et l'efficacité des décisions de l'Agent, mais améliore également la transparence du processus décisionnel, rendant le comportement de l'Agent plus prévisible et traçable. Le CoT, en décomposant les tâches en plusieurs petites étapes, aide l'Agent à considérer attentivement chaque point de décision, réduisant les erreurs de jugement dues à une surcharge d'informations. Le CoT rend le processus décisionnel de l'Agent plus transparent, permettant aux utilisateurs de mieux comprendre les bases des décisions de l'Agent. Lors de l'interaction avec l'environnement, le CoT permet à l'Agent d'apprendre continuellement de nouvelles informations et d'ajuster ses stratégies comportementales.

Le CoT, en tant que stratégie efficace, a non seulement renforcé la capacité de raisonnement des grands modèles de langage, mais a également joué un rôle important dans la construction d'agents IA plus intelligents et fiables. En tirant parti du CoT, les chercheurs et les développeurs peuvent créer des systèmes intelligents plus adaptés à des environnements complexes et dotés d'une grande autonomie. Le CoT a démontré ses avantages uniques dans les applications pratiques, en particulier lors du traitement de tâches complexes, en décomposant les tâches en une série de petites étapes, ce qui non seulement améliore la précision de la résolution des tâches, mais renforce également l'interprétabilité et le contrôle des modèles. Cette approche de résolution progressive des problèmes peut considérablement réduire les erreurs de jugement dues à une surcharge ou à une complexité excessive d'informations lors de la gestion de tâches complexes. En même temps, cette méthode améliore également la traçabilité et la vérifiabilité de l'ensemble de la solution.

La fonction principale du CoT réside dans la combinaison de la planification, de l'action et de l'observation, comblant le fossé entre le raisonnement et l'action. Ce mode de pensée permet à l'Agent IA d'élaborer des contre-mesures efficaces lorsqu'il prévoit d'éventuelles anomalies, tout en accumulant de nouvelles informations et en vérifiant les prévisions établies lors des interactions avec l'environnement externe, fournissant ainsi de nouvelles bases de raisonnement. Le CoT agit comme un puissant moteur de précision et de stabilité, aidant l'Agent IA à maintenir une efficacité de travail élevée dans des environnements complexes.

Quatre, faux besoins corrects

Comment la Crypto doit-elle s'intégrer aux divers aspects de la pile technologique de l'IA ? Dans un article de l'année dernière, je pensais que la décentralisation de la puissance de calcul et des données était une étape clé pour aider les petites entreprises et les développeurs individuels à réduire leurs coûts, et cette année, dans le secteur Crypto x IA que Coinbase a organisé, nous avons vu une classification plus détaillée :

(1)Couche de calcul(réseau axé sur la fourniture de ressources de processeurs graphiques (GPU) aux développeurs d'IA);

(2)Couche de données(réseau soutenant l'accès, l'orchestration et la vérification décentralisés des pipelines de données d'IA);

(3)Couche intermédiaire(plateforme ou réseau soutenant le développement, le déploiement et l'hébergement de modèles ou d'agents d'IA);

(4)Couche d'application(produits orientés utilisateur utilisant les mécanismes d'IA sur la chaîne, qu'ils soient B2B ou B2C).

Dans ces quatre couches, chacune a une grande vision, dont l'objectif est de lutter contre la domination des géants de la Silicon Valley dans la prochaine ère d'Internet. Comme je l'ai dit l'année dernière, devons-nous vraiment accepter que les géants de la Silicon Valley contrôlent exclusivement la puissance de calcul et les données ? Les grands modèles fermés sous leur monopole sont en réalité une boîte noire. La science, en tant que la religion la plus vénérée de l'humanité aujourd'hui, fait que chaque réponse des grands modèles à l'avenir sera considérée comme une vérité par une grande partie des gens. Mais comment cette vérité peut-elle être vérifiée ? Selon la vision des géants de la Silicon Valley, les permissions que les agents auront à l'avenir dépasseront l'imagination, comme le droit de paiement de votre portefeuille, le droit d'utiliser le terminal, comment garantir qu'il n'y a pas de mauvaises intentions ?

La décentralisation est la seule réponse, mais parfois devons-nous prendre en compte de manière raisonnable combien de personnes paient pour ces grandes visions ? Dans le passé, nous pouvions compenser les erreurs idéalisées par des Tokens sans tenir compte de la boucle commerciale. Cependant, la situation actuelle est très critique. Crypto x IA doit davantage tenir compte des réalités lors de la conception, par exemple, comment équilibrer l'offre des deux extrémités de la couche de calcul lorsqu'il y a une perte de performance et une instabilité ? Pour réaliser la compétitivité face aux clouds centralisés. Combien d'utilisateurs réels les projets de la couche de données auront-ils, comment vérifier la véracité et l'efficacité des données fournies, et quels types de clients ont besoin de ces données ? Les autres couches suivent le même principe. Dans cette époque, nous n'avons pas besoin de tant de faux besoins qui semblent corrects.

Cinq, le Meme a émergé de SocialFi

Comme je l'ai dit dans le premier paragraphe, le Meme a déjà émergé d'une manière ultra-rapide, correspondant à la forme SocialFi de Web3. Friend.tech est le Dapp qui a tiré la première salve de cette nouvelle vague d'applications sociales, mais a malheureusement échoué à cause d'une conception de Token trop hâtive. Pump.fun a prouvé la faisabilité d'une pure plateforme, sans Token, sans règles. Les demandeurs et les fournisseurs d'attention s'unifient. Vous pouvez publier des mèmes, faire des diffusions en direct, émettre des tokens, laisser des messages, échanger, tout est libre, Pump.fun ne prélève que des frais de service. Cela correspond fondamentalement au modèle économique de l'attention des médias sociaux d'aujourd'hui comme YouTube, Ins, à la seule différence que les objets de facturation sont différents, et le fonctionnement de Pump.fun est plus Web3.

Le Clanker de Base est donc un agrégateur, grâce à l'écosystème intégré géré par l'écosystème lui-même, Base dispose de son propre Dapp social en tant qu'assistant, formant ainsi une boucle interne complète. L'agent Meme est une forme 2.0 de Meme Coin, les gens recherchent toujours la nouveauté, et Pump.fun se trouve actuellement au cœur de l'attention. D'un point de vue tendance, il ne s'agit que d'une question de temps avant que les fantasmes des organismes silicoïdes ne remplacent les blagues vulgaires des organismes carbonés.

J'ai mentionné Base à maintes reprises, chaque fois avec un contenu différent. Chronologiquement, Base n'a jamais été un précurseur, mais a toujours été un gagnant.

Six, que peut encore être un agent ?

D'un point de vue pragmatique, les agents ne peuvent pas être décentralisés dans un avenir proche. En considérant la construction d'agents dans le domaine traditionnel de l'IA, ce n'est pas simplement un problème de décentralisation et d'open source. Cela nécessite l'intégration de diverses API pour accéder au contenu de Web2. Ses coûts d'exploitation sont très élevés, la conception de la chaîne de pensée et la collaboration multi-agents dépendent généralement d'un humain comme intermédiaire. Nous traverserons une longue période de transition jusqu'à l'émergence d'une forme d'intégration appropriée, peut-être comme UNI. Mais comme dans l'article précédent, je pense toujours que les agents auront un impact significatif sur notre secteur, tout comme la présence de Cex dans notre domaine, qui est incorrecte mais très importante.

Le mois dernier, Stanford et Microsoft ont publié un article (Revue des Agents IA) qui décrit en détail l'application des agents dans les domaines de la santé, des machines intelligentes et des mondes virtuels. Dans l'annexe de cet article, il y a déjà de nombreux exemples d'expérimentations avec GPT-4V en tant qu'agent participant au développement de jeux AAA de haut niveau.

Il n'est pas nécessaire de forcer la vitesse de sa combinaison avec la décentralisation, je préfère que l'agent comble d'abord les pièces du puzzle avec des capacités et une vitesse ascendantes. Nous avons tant de ruines narratives et de métavers vides à remplir, et à un moment approprié, nous considérerons comment en faire le prochain UNI.

Références :

La chaîne de pensée « émergente » des grands modèles, qu'est-ce que cela implique vraiment ? Auteur : Cerebellum

Comprendre Agent en un article, la prochaine étape des grands modèles Auteur : LinguaMind

Cet article provient d'une soumission, ne représentant pas l'opinion de BlockBeats.