Auteur original : YBB Capital Researcher Zeke

Un, commencer par l'attrait pour la nouveauté

Au cours de l'année dernière, en raison d'une rupture dans la narration au niveau des applications, incapable de suivre la vitesse d'explosion des infrastructures, le domaine des cryptomonnaies est progressivement devenu un jeu de compétition pour les ressources d'attention. De Silly Dragon à Goat, de Pump.fun à Clanker, l'attrait pour la nouveauté dans l'attention a rendu cette compétition de plus en plus interne. En commençant par des approches les plus banales pour attirer l'attention, elle a rapidement évolué vers un modèle de plateforme unifiant les demandeurs et les fournisseurs d'attention, jusqu'à ce que les organismes à base de silicium deviennent les nouveaux fournisseurs de contenu. Au sein des porteurs de Meme Coin, une existence capable d'atteindre un consensus entre les détaillants et les VC a finalement émergé : l'Agent IA.

L'attention est finalement un jeu à somme nulle, mais la spéculation peut effectivement favoriser une croissance sauvage. Dans notre article sur UNI, nous avons revisité le début du dernier âge d'or de la blockchain, la croissance rapide de la DeFi étant le résultat de l'ère du minage LP inaugurée par Compound Finance, où entrer et sortir de milliers voire de dizaines de milliers de pools de minage sur Apy était la manière la plus primitive de jouer sur la chaîne à cette époque, bien que la situation finale ait été l'effondrement de divers pools. Mais l'afflux frénétique des mineurs d'or a effectivement laissé une liquidité sans précédent dans la blockchain, et la DeFi a finalement échappé à la pure spéculation pour former une piste mature, répondant aux besoins financiers des utilisateurs dans divers aspects, tels que les paiements, les transactions, l'arbitrage, le staking, etc. L'Agent IA traverse également cette phase sauvage en ce moment, et nous explorons comment la Crypto peut mieux intégrer l'IA et finalement amener le niveau des applications à de nouveaux sommets.

Deux, comment l'agent agit de manière autonome

Nous avons brièvement introduit l'origine de l'AI Meme : Truth Terminal, ainsi que les perspectives futures pour l'Agent IA. Cet article se concentre d'abord sur l'Agent IA lui-même.

Commençons par définir l'Agent IA. Le terme Agent dans le domaine de l'IA est relativement ancien mais mal défini, mettant principalement l'accent sur l'Autonomie, c'est-à-dire que toute IA capable de percevoir l'environnement et de réagir peut être appelée Agent. Dans la définition actuelle, l'Agent IA est plus proche d'un agent intelligent, c'est-à-dire un système établi pour imiter les décisions humaines dans un grand modèle, considéré dans le milieu académique comme la voie la plus prometteuse vers l'AGI (Intelligence Artificielle Générale).

Dans les premières versions de GPT, nous pouvions clairement percevoir que les grands modèles ressemblaient à des humains, mais lorsqu'il s'agissait de répondre à de nombreuses questions complexes, les grands modèles ne pouvaient souvent fournir que des réponses vagues. La raison fondamentale est que les grands modèles de l'époque s'appuyaient sur la probabilité plutôt que sur la causalité, et de plus, ils manquaient des capacités d'utilisation d'outils, de mémoire et de planification que possèdent les humains, tandis que l'Agent IA peut combler ces lacunes. Donc, pour résumer avec une formule, Agent IA (智能体) = LLM (大模型) + Planification (规划) + Mémoire (记忆) + Outils (工具).

Les grands modèles basés sur des prompts ressemblent davantage à une personne statique, ils n'ont de vie que lorsque nous les alimentons. L'objectif de l'Agent est d'être une personne plus réaliste. Actuellement, les agents dans le secteur reposent principalement sur des modèles finement ajustés des versions Llama 70 b ou 405 b open source de Meta (avec des paramètres différents), dotés de mémoire et de la capacité d'utiliser des outils d'intégration API. Dans d'autres aspects, ils peuvent nécessiter l'aide ou l'entrée humaine (y compris l'interaction et la collaboration avec d'autres agents), c'est pourquoi nous constatons que les principaux agents dans le secteur existent encore principalement sous la forme de KOL sur les réseaux sociaux. Pour rendre un agent plus humain, il faut intégrer des capacités de planification et d'action, et la chaîne de pensée dans la planification est particulièrement cruciale.

Trois, chaîne de pensée (Chain of Thought, CoT)

Le concept de chaîne de pensée (Chain of Thought, CoT) est apparu pour la première fois en 2022 dans un article publié par Google (Chain-of-Thought Prompting Elicits Reasoning in Large Language Models), qui a indiqué qu'il était possible d'améliorer la capacité de raisonnement du modèle en générant une série d'étapes de raisonnement intermédiaires, aidant ainsi le modèle à mieux comprendre et résoudre des problèmes complexes.

Un prompt CoT typique contient trois parties : description de la tâche avec une instruction claire, une base logique soutenant la résolution de la tâche, ou des principes théoriques, et des exemples de solutions spécifiques. Cette structure aide le modèle à comprendre les exigences de la tâche, en s'approchant progressivement de la réponse par un raisonnement logique, améliorant ainsi l'efficacité et l'exactitude de la résolution des problèmes. Le CoT est particulièrement adapté aux tâches nécessitant une analyse approfondie et un raisonnement en plusieurs étapes, comme la résolution de problèmes mathématiques, la rédaction de rapports de projet, etc. Pour des tâches simples, le CoT peut ne pas apporter d'avantages apparents, mais pour des tâches complexes, il peut améliorer considérablement les performances du modèle, réduisant le taux d'erreur grâce à une stratégie de résolution étape par étape et améliorant la qualité de l'achèvement des tâches.

Lors de la construction de l'Agent IA, le CoT joue un rôle clé. L'Agent IA doit comprendre les informations reçues et prendre des décisions raisonnables en conséquence. Le CoT aide l'Agent à traiter et analyser efficacement les informations d'entrée en fournissant une méthode de réflexion ordonnée, transformant les résultats de l'analyse en directives d'action concrètes. Cette méthode renforce non seulement la fiabilité et l'efficacité des décisions de l'Agent, mais améliore également la transparence du processus décisionnel, rendant le comportement de l'Agent plus prévisible et traçable. Le CoT, en décomposant les tâches en plusieurs petites étapes, aide l'Agent à considérer minutieusement chaque point de décision, réduisant ainsi les erreurs de décision causées par la surcharge d'informations. Le CoT rend le processus décisionnel de l'Agent plus transparent, facilitant la compréhension par l'utilisateur des bases de ses décisions. Lors de l'interaction avec l'environnement, le CoT permet à l'Agent d'apprendre continuellement de nouvelles informations et d'ajuster sa stratégie comportementale.

Le CoT, en tant que stratégie efficace, non seulement améliore les capacités de raisonnement des grands modèles de langage, mais joue également un rôle important dans la construction d'Agents IA plus intelligents et fiables. En utilisant le CoT, les chercheurs et développeurs peuvent créer des systèmes intelligents plus adaptés à des environnements complexes, dotés d'une grande autonomie. Le CoT a démontré ses avantages uniques dans des applications pratiques, en particulier lors du traitement de tâches complexes, en décomposant les tâches en une série de petites étapes, ce qui a non seulement amélioré la précision de la résolution des tâches, mais a également renforcé l'interprétabilité et le contrôle du modèle. Cette approche de résolution de problèmes étape par étape peut considérablement réduire le taux d'erreurs face à des tâches complexes dues à un excès d'informations ou à leur complexité. En même temps, cette méthode améliore la traçabilité et la vérifiabilité de l'ensemble de la solution.

La fonction principale du CoT réside dans la combinaison du plan, de l'action et de l'observation, comblant le fossé entre le raisonnement et l'action. Ce mode de pensée permet à l'Agent IA de formuler des stratégies efficaces lors de la prévision des anomalies potentielles rencontrées, tout en accumulant de nouvelles informations et en validant les prévisions établies lors de l'interaction avec l'environnement externe, fournissant ainsi de nouvelles bases de raisonnement. Le CoT est comme un puissant moteur de précision et de stabilité, aidant l'Agent IA à maintenir une efficacité de travail élevée dans des environnements complexes.

Quatre, les faux besoins corrects

Quels aspects de la technologie AI doivent réellement se combiner avec la Crypto ? Dans l'article de l'année dernière, je pensais que la décentralisation de la puissance de calcul et des données était une étape clé pour aider les petites entreprises et les développeurs indépendants à réduire les coûts, et cette année, dans le segment Crypto x AI compilé par Coinbase, nous avons vu une division plus détaillée :

(1) Couche de calcul (qui fait référence à un réseau dédié à fournir des ressources de processeurs graphiques (GPU) pour les développeurs IA) ;

(2) Couche de données (qui fait référence à un réseau soutenant l'accès, l'orchestration et la validation des pipelines de données AI décentralisés) ;

(3) Couche middleware (qui fait référence à la plateforme ou au réseau soutenant le développement, le déploiement et l'hébergement des modèles ou agents IA) ;

(4) Couche d'application (qui fait référence aux produits orientés utilisateur utilisant des mécanismes d'IA sur la chaîne, que ce soit B2B ou B2C).

Dans ces quatre couches de répartition, chaque couche a une grande vision, et leurs objectifs résumés visent tous à contrer la domination des géants de la Silicon Valley sur la prochaine ère d'Internet. Comme je l'ai dit l'année dernière, devons-nous vraiment accepter que les géants de la Silicon Valley contrôlent exclusivement la puissance de calcul et les données ? Dans les grands modèles de source fermée sous leur monopole, l'intérieur est une boîte noire. La science, en tant que la religion la plus vénérée de l'humanité aujourd'hui, fera que chaque phrase répondue par les grands modèles à l'avenir sera considérée par une grande partie des gens comme une vérité. Mais comment cette vérité sera-t-elle vérifiée ? Selon la vision des géants de la Silicon Valley, les permissions que les agents finiront par posséder dépasseront l'imagination, comme le droit de paiement de votre portefeuille, le droit d'utiliser le terminal, comment s'assurer que l'humain n'a pas de mauvaises intentions ?

La décentralisation est la seule réponse, mais parfois devons-nous considérer raisonnablement combien de payeurs de ces grandes visions existent ? Dans le passé, nous pouvions compenser les erreurs dues à l'idéalisation à travers le Token sans considérer le cycle commercial. Mais la situation actuelle est très sévère, la Crypto x AI doit davantage prendre en compte la réalité lors de la conception, par exemple, comment équilibrer les deux extrémités de la couche de puissance de calcul dans un contexte de perte de performance et d'instabilité ? Pour réaliser la compétitivité des nuages centralisés. Combien d'utilisateurs réels les projets de la couche de données auront-ils, comment vérifier la véracité des données fournies, et quels types de clients ont besoin de ces données ? Les autres couches suivent le même principe, dans cette époque, nous n'avons pas besoin de tant de pseudo-besoins apparemment corrects.

Cinq, Meme a couru vers le SocialFi

Comme je l'ai mentionné dans le premier paragraphe, le Meme a déjà emprunté une voie ultrarapide pour évoluer vers une forme de SocialFi conforme au Web3. Friend.tech a été le premier Dapp à tirer le coup d'envoi de ce tour social, mais hélas, il a échoué en raison d'une conception de Token trop précipitée. Pump.fun a prouvé la faisabilité d'une plateforme pure, sans Tokens, sans règles. Les demandeurs et les fournisseurs d'attention s'unifient, vous pouvez publier des mèmes, faire des diffusions en direct, émettre des tokens, laisser des messages, échanger, tout est libre. Pump.fun ne prélève qu'une commission de service. Cela est pratiquement identique au modèle économique de l'attention des réseaux sociaux actuels comme YouTube et Instagram, sauf que les cibles de facturation sont différentes, tandis que Pump.fun est plus Web3 dans son gameplay.

Le Clanker de Base est l'aboutissement, grâce à l'écosystème intégré que l'écosystème a personnellement façonné, Base possède son propre Dapp social en tant qu'assistance, formant un cycle interne complet. L'agent Meme est la forme 2.0 de Meme Coin, car les gens cherchent toujours la nouveauté, et Pump.fun est actuellement au cœur de l'actualité. D'un point de vue tendance, il est juste une question de temps avant que les fantasmes des organismes à base de silicium ne remplacent les blagues vulgaires des organismes à base de carbone.

J'ai déjà mentionné Base un nombre incalculable de fois, mais chaque fois, le contenu est différent. D'un point de vue chronologique, Base n'a jamais été un précurseur, mais a toujours été le gagnant.

Six, que peut encore être un agent ?

D'un point de vue pragmatique, les agents ne seront pas décentralisés pendant longtemps. Selon la construction traditionnelle des agents dans le domaine de l'IA, il ne s'agit pas d'un simple processus de raisonnement qui peut être décentralisé et open source. Ils nécessitent d'accéder à divers API pour accéder au contenu de Web2, et leurs coûts d'exploitation sont très élevés. La conception de la chaîne de pensée et la collaboration entre plusieurs agents dépendent généralement d'un humain en tant qu'intermédiaire. Nous traverserons une longue période de transition jusqu'à ce qu'une forme de fusion appropriée apparaisse, peut-être comme UNI. Mais comme dans l'article précédent, je pense toujours que les agents auront un grand impact sur notre secteur, tout comme l'existence de Cex dans notre industrie, qui est incorrecte mais très importante.

L'article publié par Stanford et Microsoft le mois dernier (Aperçu de l'Agent IA) décrit en détail les applications des agents dans l'industrie médicale, les machines intelligentes et les mondes virtuels. Dans l'annexe de cet article, il y a déjà de nombreux cas d'expérimentation où GPT-4 V participe au développement de jeux AAA de premier plan en tant qu'agent.

Il n'est pas nécessaire de forcer la vitesse à laquelle elle se combine avec la décentralisation, je préfère que l'agent comble d'abord le puzzle des capacités et de la vitesse ascendantes. Nous avons tant de ruines narratives et de métavers vides qu'il doit remplir. À un moment approprié, nous considérerons comment en faire le prochain UNI.

Références

La chaîne de pensée « émergeante » des grands modèles, quelle capacité est-ce vraiment ? Auteur :脑极体

Un article pour comprendre l'Agent, la prochaine étape des grands modèles. Auteur : LinguaMind