Auteur : YBB Capital Researcher Zeke
Premièrement, commencé par le besoin d'attention
Au cours de l'année passée, en raison d'une rupture dans la narration au niveau de l'application, incapable de suivre la vitesse d'explosion des infrastructures, le domaine de la cryptographie est progressivement devenu un jeu de conquête des ressources d'attention. De Silly Dragon à Goat, de Pump.fun à Clanker, le besoin d'attention a conduit à une guerre d'usure. Commençant par des techniques d'attraction classiques pour monétiser l'attention, nous sommes rapidement passés à un modèle de plateforme unifié entre les demandeurs et fournisseurs d'attention, puis aux biotechnologies à base de silicium devenant de nouveaux fournisseurs de contenu. Au milieu de la diversité des supports des Meme Coins, une sorte d'existence capable de créer un consensus entre les petits investisseurs et les VC a finalement émergé : l'AI Agent.
L'attention est finalement un jeu à somme nulle, mais la spéculation peut en effet favoriser la croissance sauvage des choses. Dans notre article sur UNI, nous avons évoqué le début de l'ancien âge d'or de la blockchain, la croissance rapide de la DeFi a été déclenchée par l'ère du minage LP inaugurée par Compound Finance, entrer et sortir des pools de minage avec des APY de milliers ou même de dizaines de milliers était la manière de jeu la plus primitive à l'époque, bien que la situation finale ait été l'effondrement de divers pools de minage. Cependant, l'afflux frénétique des mineurs d'or a effectivement laissé une liquidité sans précédent dans la blockchain, et la DeFi a finalement échappé à la pure spéculation pour former une piste mature, satisfaisant les besoins financiers des utilisateurs dans tous les aspects tels que le paiement, le trading, l'arbitrage, le staking, etc. Et à ce stade, l'AI Agent traverse également cette phase sauvage, nous cherchons comment le Crypto peut mieux fusionner avec l'IA et finalement propulser le niveau d'application vers de nouveaux sommets.
Deuxièmement, comment un agent s'autonomise
Dans notre précédent article, nous avons brièvement présenté l'origine de l'AI Meme : Truth Terminal, ainsi que les perspectives d'avenir pour les AI Agents. Cet article se concentre d'abord sur les AI Agents eux-mêmes.
Commençons par la définition des AI Agents. Dans le domaine de l'IA, le terme Agent est relativement ancien mais mal défini, mettant principalement l'accent sur l'autonomie, c'est-à-dire que toute IA capable de percevoir son environnement et d'agir en conséquence peut être qualifiée d'Agent. Dans la définition actuelle, l'AI Agent est plus proche du concept d'agent intelligent, c'est-à-dire la mise en place d'un système imitant la prise de décision humaine pour le grand modèle. Dans le milieu académique, ce système est considéré comme le moyen le plus prometteur pour atteindre l'AGI (Intelligence Artificielle Générale).
Dans les premières versions de GPT, nous pouvions clairement percevoir que les grands modèles ressemblaient à des humains, mais lorsqu'il s'agissait de répondre à de nombreuses questions complexes, les grands modèles ne pouvaient offrir que des réponses vagues. La raison fondamentale est que les grands modèles de l'époque étaient basés sur des probabilités plutôt que sur des causalités, et de plus, ils manquaient des capacités d'utilisation d'outils, de mémoire, de planification, etc. que possèdent les humains, tandis que l'AI Agent peut combler ces lacunes. Ainsi, pour résumer, AI Agent (agent intelligent) = LLM (grand modèle) + Planification + Mémoire + Outils.
Les grands modèles basés sur les prompts ressemblent davantage à une personne statique, ils n'ont de vie que lorsque nous les interrogeons, tandis que l'objectif de l'agent est d'être une personne plus réelle. À l'heure actuelle, les agents dans la communauté sont principalement des modèles ajustés basés sur la version 70b ou 405b de Llama, open source par Meta, avec des capacités de mémoire et d'utilisation d'API pour intégrer des outils, tandis que dans d'autres aspects, ils pourraient avoir besoin de l'aide ou des contributions des humains (y compris l'interaction et la coopération avec d'autres agents). C'est pourquoi nous voyons que les principaux agents de la communauté existent encore principalement sous forme de KOL sur les réseaux sociaux. Pour rendre les agents plus semblables à des humains, il faut intégrer des capacités de planification et d'action, et la sous-catégorie de la planification, la chaîne de pensée, est particulièrement cruciale.
Troisièmement, chaîne de pensée (Chain of Thought, CoT)
Le concept de chaîne de pensée (Chain of Thought, CoT) est apparu pour la première fois en 2022 dans un article publié par Google (Chain-of-Thought Prompting Elicits Reasoning in Large Language Models), qui indique qu'il est possible d'améliorer la capacité de raisonnement du modèle en générant une série d'étapes de raisonnement intermédiaires, aidant ainsi le modèle à mieux comprendre et résoudre des problèmes complexes.
Un prompt CoT typique se compose de trois parties : instructions claires, description de la tâche, fondement logique soutenant la théorie ou les principes de résolution des tâches, exemples de solutions spécifiques. Cette structure aide le modèle à comprendre les exigences de la tâche, en s'approchant progressivement de la réponse grâce au raisonnement logique, améliorant ainsi l'efficacité et la précision de la résolution des problèmes. Le CoT est particulièrement adapté aux tâches nécessitant une analyse approfondie et un raisonnement en plusieurs étapes, comme la résolution de problèmes mathématiques, la rédaction de rapports de projet, etc. Pour les tâches simples, le CoT peut ne pas apporter d'avantages évidents, mais pour les tâches complexes, il peut considérablement améliorer les performances du modèle, réduire le taux d'erreur en utilisant une stratégie de résolution par étapes, et améliorer la qualité de l'achèvement des tâches.
Lors de la construction d'AI Agents, le CoT joue un rôle clé. L'AI Agent doit comprendre les informations reçues et prendre des décisions raisonnables en conséquence. Le CoT, en fournissant une méthode de pensée ordonnée, aide l'Agent à traiter et analyser efficacement les informations d'entrée, transformant les résultats de l'analyse en directives d'action concrètes. Cette méthode renforce non seulement la fiabilité et l'efficacité des décisions de l'Agent, mais améliore également la transparence du processus décisionnel, rendant le comportement de l'Agent plus prévisible et traçable. En décomposant les tâches en plusieurs petites étapes, le CoT aide l'Agent à considérer minutieusement chaque point de décision, réduisant les erreurs de décision causées par une surcharge d'informations. Le CoT rend le processus décisionnel de l'Agent plus transparent, et les utilisateurs peuvent plus facilement comprendre les bases des décisions de l'Agent. Dans l'interaction avec l'environnement, le CoT permet à l'Agent d'apprendre continuellement de nouvelles informations et d'ajuster sa stratégie comportementale.
Le CoT, en tant que stratégie efficace, a non seulement amélioré la capacité de raisonnement des modèles de langage à grande échelle, mais a également joué un rôle important dans la construction d'AI Agents plus intelligents et fiables. En utilisant le CoT, les chercheurs et développeurs peuvent créer des systèmes intelligents plus adaptés à des environnements complexes, dotés d'une autonomie élevée. Le CoT a démontré ses avantages uniques dans les applications pratiques, en particulier lorsqu'il s'agit de traiter des tâches complexes, en décomposant les tâches en une série de petites étapes, ce qui améliore non seulement l'exactitude de la résolution des tâches, mais renforce également l'interprétabilité et le contrôle du modèle. Cette méthode de résolution progressive des problèmes peut considérablement réduire les erreurs de décision causées par une surcharge d'informations ou une complexité excessive. De plus, cette méthode améliore la traçabilité et la vérifiabilité de l'ensemble de la solution.
La fonction centrale du CoT réside dans la combinaison de la planification, de l'action et de l'observation, comblant ainsi l'écart entre le raisonnement et l'action. Ce mode de pensée permet à l'AI Agent d'élaborer des contre-mesures efficaces en prévoyant les anomalies potentielles, tout en accumulant de nouvelles informations et en vérifiant les prédictions préétablies lors de l'interaction avec l'environnement externe, fournissant ainsi de nouvelles bases de raisonnement. Le CoT fonctionne comme un puissant moteur de précision et de stabilité, aidant l'AI Agent à maintenir une efficacité de travail élevée dans des environnements complexes.
Quatrième, les faux besoins appropriés
Quelles parties de la pile technologique de l'IA doivent être intégrées au Crypto ? Dans l'article de l'année dernière, j'ai estimé que la décentralisation de la puissance de calcul et des données est une étape clé pour aider les petites entreprises et les développeurs individuels à réduire les coûts, et cette année, dans le segment Crypto x AI organisé par Coinbase, nous avons vu une classification plus détaillée :
(1) Niveau de calcul (se référant aux réseaux se concentrant sur la fourniture de ressources de traitement graphique (GPU) pour les développeurs d'IA) ;
(2) Niveau de données (se référant aux réseaux soutenant l'accès, l'orchestration et la vérification décentralisés des pipelines de données d'IA) ;
(3) Niveau middleware (se référant aux plateformes ou réseaux soutenant le développement, le déploiement et l'hébergement de modèles d'IA ou d'agents) ;
(4) Niveau d'application (se référant aux produits orientés utilisateurs utilisant des mécanismes d'IA sur la chaîne, que ce soit B2B ou B2C).
Dans ces quatre niveaux de classification, chaque niveau a une vision grandiose, et son objectif est de contrer la domination des géants de la Silicon Valley dans la prochaine ère d'Internet. Comme je l'ai dit l'année dernière, devons-nous vraiment accepter que les géants de la Silicon Valley contrôlent exclusivement la puissance de calcul et les données ? Les grands modèles en source fermée sous leur monopole sont des boîtes noires. La science, en tant que religion la plus vénérée de l'humanité aujourd'hui, chaque phrase que les grands modèles répondront à l'avenir sera considérée comme une vérité par une grande partie des gens, mais comment valider cette vérité ? Selon l'idée des géants de la Silicon Valley, les permissions que les agents finiront par avoir seront inimaginables, comme le droit de paiement de votre portefeuille, le droit d'utiliser des terminaux, comment garantir qu'il n'y a pas de mauvaises intentions chez les humains ?
La décentralisation est la seule réponse, mais parfois devons-nous considérer raisonnablement combien de personnes paieront pour ces grandes visions ? Dans le passé, nous pouvions compenser les erreurs dues à l'idéalisation sans tenir compte du cycle commercial grâce aux Tokens. Mais la situation actuelle est très sévère, Crypto x AI doit davantage se combiner à la réalité pour concevoir, par exemple, comment équilibrer les deux extrémités de l'offre dans le cas où la couche de calcul subit des pertes de performance et est instable, afin de rivaliser avec la puissance des clouds centralisés. Combien d'utilisateurs réels les projets de couche de données auront-ils, comment tester la véracité et l'efficacité des données fournies, et quels types de clients ont besoin de ces données ? Les autres couches sont similaires, en cette époque, nous n'avons pas besoin de tant de faux besoins qui semblent corrects.
Cinquièmement, le Meme a émergé du SocialFi
Comme je l'ai dit dans le premier paragraphe, le Meme a émergé de manière ultra-rapide, s'adaptant à la forme SocialFi du Web3. Friend.tech a été le premier Dapp à tirer la sonnette d'alarme dans cette nouvelle vague d'applications sociales, mais a échoué à cause d'un design de Token hâtif. Pump.fun a prouvé la faisabilité d'une plateforme pure, sans Token, sans règles. Les demandeurs et fournisseurs d'attention sont unis, vous pouvez publier des mèmes, faire des diffusions en direct, émettre des tokens, laisser des commentaires, échanger, tout est libre, Pump.fun ne prélève qu'une commission de service. Cela correspond fondamentalement au modèle économique d'attention des médias sociaux actuels tels que YouTube et Instagram, à la seule différence que les sujets de facturation sont différents, et que dans le jeu, Pump.fun est plus Web3.
Le Clanker de Base est le rassembleur, bénéficiant d'un écosystème intégré dirigé par l'écosystème lui-même. Base a sa propre Dapp sociale comme support, formant une boucle interne complète. L'AI Meme est la forme 2.0 du Meme Coin, les gens cherchent toujours la nouveauté, et Pump.fun se trouve actuellement au cœur de l'attention. D'un point de vue tendance, il ne sera qu'une question de temps avant que les fantasmes des biotechnologies à base de silicium ne remplacent les blagues vulgaires des biotechnologies à base de carbone.
J'ai déjà mentionné Base un nombre incalculable de fois, simplement en abordant des contenus différents à chaque fois. Sur la ligne du temps, Base n'a jamais été le pionnier, mais a toujours été le gagnant.
Sixièmement, que peut encore être un agent ?
D'un point de vue pragmatique, il est impossible que les agents soient décentralisés pendant encore longtemps. Du point de vue de la construction d'agents dans le domaine de l'IA traditionnel, ce n'est pas un simple processus de raisonnement que la décentralisation et l'open-source peuvent résoudre. Cela nécessite l'intégration de diverses API pour accéder au contenu du Web2, et son coût opérationnel est très élevé. La conception de chaînes de pensée et la collaboration de multiples agents dépendent souvent d'un humain comme intermédiaire. Nous traverserons une longue période de transition avant qu'une forme de fusion appropriée n'émerge, peut-être comme UNI. Mais tout comme dans l'article précédent, je pense toujours que les agents auront un grand impact sur notre secteur, tout comme l'existence de Cex dans notre domaine, incorrect mais très important.
Le mois dernier, Stanford & Microsoft ont publié un article (Aperçu des AI Agents) qui décrit en détail les applications des agents dans les domaines médical, des machines intelligentes et des mondes virtuels, et dans l'annexe de cet article, il existe déjà de nombreux cas expérimentaux de GPT-4V participant au développement de jeux AAA de premier plan.
Il n'est pas nécessaire d'exiger trop de la rapidité de sa combinaison avec la décentralisation, je préfère que le puzzle que l'agent comble soit d'abord sa capacité et sa vitesse ascendantes. Nous avons tant de ruines narratives et d'un métavers vide à remplir, et au bon moment, nous considérerons comment le faire devenir le prochain UNI.
Références
La chaîne de pensée « émergeante » des grands modèles, qu'est-ce que c'est comme capacité ? Auteur : cerveau extrême
Comprendre l'Agent en un clin d'œil, la prochaine étape des grands modèles Auteur : LinguaMind