Auteur : Teng Yan, Chain of Thought ; Traduction : Jinse Finance Xiaozou
J'ai un grand regret qui me hante encore : pour quiconque s'y intéresse, c'est sans doute l'opportunité d'investissement la plus évidente, mais je n'ai pas investi un centime. Non, je ne parle pas du prochain tueur de Solana, ni d'un token meme de chien avec un chapeau comique.
Mais c'est... NVIDIA.
En l'espace d'un an, la capitalisation boursière de NVDA a grimpé de 1000 milliards de dollars à 3000 milliards de dollars, triplant ainsi, dépassant même le Bitcoin au cours de la même période.
Bien sûr, il y a une part de battage médiatique autour de l'intelligence artificielle, mais une grande partie repose sur des bases réelles. NVIDIA a annoncé un chiffre d'affaires de 60 milliards de dollars pour l'année fiscale 2024, en hausse de 126 % par rapport à l'année fiscale 2023, ce qui est impressionnant.
Alors, pourquoi ai-je manqué cela ?
J'ai passé deux ans à me concentrer sur le domaine de la cryptographie, sans porter attention au monde extérieur, sans me concentrer sur le domaine de l'intelligence artificielle. J'ai vraiment fait une grosse erreur, et ça me hante encore aujourd'hui.
Mais je ne ferai pas la même erreur.
Aujourd'hui, Crypto AI donne une impression très similaire. Nous sommes à l'aube d'une explosion d'innovation. Cela ressemble trop à la ruée vers l'or en Californie au milieu du 19ème siècle, impossible à ignorer - des industries et des villes surgissant du jour au lendemain, des infrastructures se développant à une vitesse fulgurante, et la richesse étant créée par ceux qui osent.
Tout comme NVIDIA à ses débuts, Crypto AI sera, avec le recul, une opportunité évidente.
Dans la première partie de cet article, j'expliquerai pourquoi Crypto AI représente aujourd'hui l'une des opportunités les plus excitantes pour les investisseurs et les bâtisseurs.
Un aperçu simple est le suivant :
Beaucoup de gens continuent de le considérer comme une fantaisie.
Crypto AI est encore à ses débuts, et il pourrait falloir 1 à 2 ans avant d'atteindre le pic de battage médiatique.
Il y a au moins 2300 milliards de dollars d'opportunités de croissance dans ce domaine.
En substance, Crypto AI est une IA basée sur une infrastructure cryptographique. Cela signifie qu'elle est plus susceptible de suivre une trajectoire de croissance exponentielle de l'intelligence artificielle, plutôt que celle du marché cryptographique plus large. Ainsi, pour ne pas être à la traîne, il est essentiel de se concentrer sur les dernières recherches en intelligence artificielle sur Arxiv et de discuter avec ceux qui croient créer le prochain grand produit et service.
Dans la deuxième partie de cet article, j'explorerai les quatre sous-domaines les plus prometteurs de Crypto AI :
Calcul décentralisé : entraînement, inférence et marché des GPU
Réseau de données
IA vérifiable
Agents IA fonctionnant sur la chaîne
Pour rédiger cet article, j'ai passé plusieurs semaines à faire des recherches approfondies, à discuter avec des fondateurs et des équipes dans le domaine de Crypto AI, et cet article est le fruit de ces efforts. Ce document ne vise pas à approfondir chaque domaine, mais vous pouvez le considérer comme une feuille de route de haut niveau, conçue pour stimuler votre curiosité, améliorer votre niveau de recherche et guider votre réflexion d'investissement.
1. Le paysage de Crypto AI
Je décris la pile d'intelligence artificielle décentralisée comme un écosystème à plusieurs couches : un bout commence par le calcul décentralisé et un réseau de données ouvertes, soutenant l'entraînement des modèles d'intelligence artificielle décentralisés.
Ensuite, combinez la cryptographie, les mécanismes d'incitation économique et les réseaux d'évaluation pour vérifier chaque inférence - tant les entrées que les sorties. Ces sorties vérifiées alimentent des agents d'intelligence artificielle autonomes fonctionnant sur la chaîne, ainsi que des applications IA pour les consommateurs et les entreprises en lesquelles les utilisateurs peuvent réellement avoir confiance.
Le réseau de coordination relie tout ensemble, permettant une communication et une collaboration sans couture dans tout l'écosystème.
Dans cette vision, quiconque construisant de l'intelligence artificielle peut tirer parti d'une couche ou de plusieurs couches de cette pile en fonction de ses besoins spécifiques. Que ce soit en utilisant le calcul décentralisé pour l'entraînement de modèles ou en utilisant un réseau d'évaluation pour garantir des sorties de haute qualité, cette pile offre une série d'options.
En raison de la combinabilité inhérente à la blockchain, je crois que nous allons naturellement vers un avenir modulaire. Chaque couche devient hautement spécialisée, et les protocoles sont optimisés pour différentes fonctions, plutôt que d'adopter une approche d'intégration unique.
À chaque couche de la pile d'intelligence artificielle décentralisée, un grand nombre de startups se regroupent, dont la plupart ont été fondées au cours des 1 à 3 dernières années. Il est clair que ce domaine en est encore à ses débuts.
La carte des startups Crypto AI la plus complète et à jour que j'ai vue est maintenue par Casey et son équipe sur topology.vc. C'est une ressource inestimable pour quiconque suit ce domaine.
Lorsque j'explore le sous-domaine de Crypto AI, je me demande sans cesse : quelle est l'ampleur des opportunités ici ? Je ne suis pas intéressé par des petits gains - je cherche des marchés qui peuvent atteindre des centaines de milliards.
(1) Taille du marché
Examinons d'abord l'échelle du marché. Lorsque j'évalue un sous-segment, je me demande : crée-t-il un tout nouveau marché ou perturbe-t-il un marché existant ?
Prenons le calcul décentralisé comme exemple. C'est une catégorie disruptive dont le potentiel peut être évalué en observant le marché actuel du cloud computing, dont la capitalisation est d'environ 6800 milliards de dollars, et qui devrait atteindre 25000 milliards de dollars d'ici 2032.
Des marchés inédits comme les agents d'intelligence artificielle sont plus difficiles à quantifier. Évaluations nécessitant des conjectures et l'évaluation des problèmes qu'ils cherchent à résoudre sans données historiques. Il est important de noter que parfois, ce qui ressemble à un nouveau marché est en réalité simplement une tentative de trouver des solutions à des problèmes.
(2) Timing
Le timing est tout. Au fil du temps, la technologie s'améliore souvent et devient moins chère, mais la vitesse de développement varie.
Quel est le niveau de maturité technologique d'un segment de marché spécifique ? Est-il déjà prêt pour une adoption à grande échelle, ou est-il encore en phase de recherche avec des applications pratiques qui prendront encore quelques années ? Le timing détermine si un secteur mérite une attention immédiate ou s'il faut être en 'attente'.
Prenons l'exemple du chiffrement homomorphe complet (FHE) : son potentiel est indéniable, mais son développement est encore trop lent pour être largement adopté. Nous pourrions avoir besoin de plusieurs années supplémentaires pour voir son adoption par le grand public. En se concentrant d'abord sur des domaines plus proches de l'échelle, je peux consacrer du temps et des efforts à des domaines qui gagnent du terrain et qui présentent des opportunités.
Si je devais mapper ces catégories sur un graphique d'échelle et de temps, cela ressemblerait à ceci. Gardez à l'esprit que c'est encore un graphique conceptuel, et non un guide strict. Il y a beaucoup de nuances - par exemple, dans l'inférence vérifiable, différentes approches (comme zkML et opML) ont différents niveaux de préparation à l'utilisation.
En d'autres termes, je crois que l'échelle de l'intelligence artificielle sera si grande que même des domaines qui semblent aujourd'hui 'niche' pourraient évoluer vers un marché important.
Il convient également de noter que les progrès technologiques ne progressent pas toujours de manière linéaire - ils sont souvent exponentiels. Lorsqu'une explosion se produit, ma perception du timing et de l'échelle du marché changera.
Avec ce cadre en place, examinons de plus près chaque sous-domaine.
2. Domaine un : Calcul décentralisé
Le calcul décentralisé est le pilier de l'intelligence artificielle décentralisée.
Le marché des GPU, l'entraînement décentralisé et l'inférence décentralisée sont étroitement liés.
L'offre provient généralement de petits et moyens centres de données et de GPU de consommateurs.
Bien que la demande soit faible, elle est toujours en croissance. Aujourd'hui, elle provient d'utilisateurs sensibles au prix et non sensibles aux délais, ainsi que de petites startups d'intelligence artificielle.
Le plus grand défi auquel le marché Web3 des GPU est confronté actuellement est de les faire fonctionner correctement.
Coordonner les GPU sur un réseau décentralisé nécessite des techniques d'ingénierie avancées et une architecture réseau bien conçue et fiable.
2.1 Marché des GPU / Réseaux de calcul
Plusieurs équipes Crypto AI construisent des réseaux décentralisés pour répondre à la pénurie de GPU qui ne peut être satisfaite.
La proposition de valeur centrale du marché des GPU repose sur trois aspects :
Vous pouvez accéder à des calculs à des prix '90 % moins cher' que AWS, car il n'y a pas d'intermédiaires et l'offre est ouverte. En substance, ces marchés vous permettent de tirer parti des coûts marginaux de calcul les plus bas au monde.
Plus de flexibilité : pas de contrats de verrouillage, pas de processus KYC, pas de temps d'attente.
Résistance à la censure
Pour résoudre le problème de l'approvisionnement du marché, la puissance de calcul de ces marchés provient de :
Les GPU de classe entreprise (comme A100, H100) des centres de données de taille moyenne ont du mal à trouver une demande, ou sont recherchés par des mineurs de Bitcoin qui cherchent à diversifier. Je sais aussi que certaines équipes travaillent sur de grands projets d'infrastructure financés par des gouvernements, dans lesquels des centres de données ont déjà été construits dans le cadre de programmes de croissance technologique. Ces fournisseurs de GPU sont généralement incités à garder leurs GPU sur le réseau, ce qui les aide à amortir le coût de leurs GPU.
Des millions de GPU de consommation de joueurs et de foyers, qui connectent leurs ordinateurs au réseau en échange de récompenses en tokens.
D'un autre côté, aujourd'hui, la demande pour le calcul décentralisé provient de :
Utilisateurs sensibles au prix et non sensibles aux délais. Ce sous-segment privilégie le prix plutôt que la vitesse. Pensez à des chercheurs explorant de nouveaux domaines, des développeurs AI indépendants et d'autres utilisateurs soucieux des coûts qui n'ont pas besoin de traitement en temps réel. En raison de contraintes budgétaires, beaucoup d'entre eux peuvent être insatisfaits des serveurs hyperscale traditionnels (comme AWS ou Azure). Étant donné qu'ils sont largement dispersés, un marketing ciblé est essentiel pour attirer ce groupe.
Petites startups d'intelligence artificielle qui font face au défi d'obtenir des ressources de calcul flexibles et évolutives sans signer de contrats à long terme avec des fournisseurs cloud majeurs. Le développement commercial est crucial pour attirer ce sous-segment, car ils recherchent activement des alternatives à la verrouillage hyperscale.
Startups Crypto AI qui construisent des produits d'intelligence artificielle décentralisés, mais qui n'ont pas leur propre approvisionnement en puissance de calcul, devront tirer parti des ressources d'un des réseaux.
Jeux cloud : bien qu'ils ne soient pas directement alimentés par l'IA, la demande de ressources GPU pour les jeux cloud augmente de plus en plus.
Un point clé à retenir est que les développeurs privilégient toujours le coût et la fiabilité.
Le véritable défi réside dans la demande, et non dans l'offre.
Les startups dans ce domaine considèrent souvent l'échelle de leur réseau d'approvisionnement en GPU comme un signe de succès. Mais c'est trompeur - c'est au mieux une mesure de vanité.
Le véritable facteur limitant n'est pas l'offre, mais la demande. Les indicateurs clés à suivre ne sont pas le nombre de GPU disponibles, mais le taux d'utilisation et le nombre de GPU réellement loués.
Les tokens excellent dans l'orientation de l'offre, créant les incitations nécessaires pour une expansion rapide. Cependant, ils ne résolvent pas intrinsèquement le problème de la demande. Le véritable défi est d'amener le produit à un état suffisamment bon pour réaliser la demande potentielle.
À ce sujet, Haseeb Qureshi (Dragonfly) a bien dit :
Rendre le réseau de calcul réellement fonctionnel
Contrairement à la croyance populaire, le plus grand obstacle auquel fait face le marché des GPU distribués Web3 aujourd'hui est de les faire fonctionner correctement.
Ce n'est pas un problème trivial.
Coordonner les GPU dans un réseau distribué est extrêmement complexe, avec de nombreux défis - allocation des ressources, évolutivité dynamique des charges de travail, équilibrage de la charge entre nœuds et GPU, gestion de la latence, transfert de données, tolérance aux pannes, et traitement de divers matériels dispersés géographiquement. Je pourrais continuer.
Réaliser cela nécessite une conception d'ingénierie réfléchie et une architecture réseau fiable et bien conçue.
Pour mieux comprendre, pensez à Kubernetes de Google. Il est largement considéré comme la norme d'or pour l'orchestration de conteneurs, automatisant des processus comme l'équilibrage de charge et l'évolutivité dans des environnements distribués, ce qui est très similaire aux défis auxquels est confronté un réseau de GPU distribué. Kubernetes lui-même est basé sur plus d'une décennie d'expérience de Google, et même à l'époque, il a fallu des années d'itérations incessantes pour bien fonctionner.
Certaines des places de marché de calcul GPU déjà en ligne peuvent gérer de petites charges de travail, mais dès qu'elles essaient de s'étendre, elles rencontrent des problèmes. Je soupçonne que cela est dû à une architecture sous-jacente mal conçue.
Un autre défi/une opportunité pour le réseau de calcul décentralisé est d'assurer la crédibilité : vérifier que chaque nœud fournit réellement la puissance de calcul qu'il prétend. Actuellement, cela repose sur la réputation du réseau, et dans certains cas, les fournisseurs de puissance de calcul sont classés en fonction de leur score de réputation. La blockchain semble bien adaptée aux systèmes de vérification sans confiance. Des startups comme Gensyn et Spheron s'efforcent de résoudre ce problème avec une approche sans confiance.
Aujourd'hui, de nombreuses équipes Web3 continuent de faire face à ces défis, ce qui signifie que la porte des opportunités est grande ouverte.
Taille du marché du calcul décentralisé
Quelle est la taille du marché des réseaux de calcul décentralisés ?
Aujourd'hui, cela pourrait ne représenter qu'une petite fraction de l'industrie du cloud computing d'une valeur de 6800 milliards à 25000 milliards de dollars. Cependant, même si cela augmente le frottement pour les utilisateurs, tant que les coûts sont inférieurs à ceux des fournisseurs traditionnels, il y aura toujours de la demande.
Je crois qu'en raison des subventions en tokens et de la libération de l'offre pour des utilisateurs non sensibles aux prix, les coûts resteront relativement bas à moyen terme (par exemple, si je peux louer mon ordinateur portable de jeu pour gagner un revenu supplémentaire, que ce soit 20 ou 50 dollars par mois, je serai très heureux).
Mais le véritable potentiel de croissance des réseaux de calcul décentralisés - et l'expansion réelle de leur TAM - se manifestera dans les situations suivantes :
L'entraînement décentralisé des modèles d'intelligence artificielle devient pratique.
La demande d'inférence explose, et les centres de données existants ne peuvent pas répondre à cette demande. Cela commence déjà à se manifester. Jensen Huang a déclaré que la demande d'inférence augmentera 'd'un milliard de fois'.
Des niveaux de service appropriés (SLA) deviennent disponibles, résolvant un obstacle clé à l'adoption par les entreprises. Actuellement, le fonctionnement du calcul décentralisé laisse les utilisateurs ressentir différents niveaux de qualité de service (par exemple, le pourcentage de temps de disponibilité). Avec un SLA, ces réseaux peuvent offrir des indicateurs de fiabilité et de performance normalisés, rendant le calcul décentralisé une alternative viable aux fournisseurs de cloud computing traditionnels.
Le calcul décentralisé sans autorisation est la couche fondamentale de l'écosystème d'intelligence artificielle décentralisée - l'infrastructure.
Bien que la chaîne d'approvisionnement des GPU continue de s'élargir, je crois que nous sommes encore à l'aube de l'ère de l'intelligence humaine. La demande de calcul sera insatiable.
Il est important de noter qu'un point de basculement pourrait bientôt émerger, ce qui entraînerait une réévaluation de tous les marchés de GPU en fonctionnement.
Autres considérations :
Le marché pur des GPU est encombré, avec une forte concurrence entre les plateformes décentralisées et l'émergence de nouveaux services cloud AI Web2 (comme l'essor de Vast.ai et Lambda).
La demande pour de petits nœuds (comme 4 x H100) n'est pas élevée, car leur utilisation est limitée, mais bonne chance pour trouver quelqu'un vendant de grands clusters - ils ont encore une certaine demande.
Un acteur dominant va-t-il agréger toute la puissance de calcul pour les protocoles décentralisés, ou va-t-il maintenir la puissance de calcul dispersée sur plusieurs marchés ? Je penche pour la première option, car l'intégration tend à améliorer l'efficacité des infrastructures. Mais cela prend du temps, et en attendant, la fragmentation et le chaos continuent.
Les développeurs veulent se concentrer sur le développement d'applications, plutôt que de faire face au déploiement et à la configuration. Le marché doit abstraire ces complexités afin de rendre l'accès au calcul aussi fluide que possible.
2.2 Entraînement décentralisé
Si la loi d'évolutivité s'applique, alors entraîner les prochains modèles d'intelligence artificielle de pointe dans un seul centre de données deviendra un jour impossible.
Former des modèles d'IA nécessite de transférer une grande quantité de données entre les GPU. La lenteur des vitesses de transfert de données (interconnexion) entre les GPU distribués est souvent le principal obstacle.
Les chercheurs explorent simultanément diverses méthodes et réalisent des percées (comme Open DiLoCo, DisTrO). Ces avancées s'accumuleront, accélérant les progrès dans ce domaine.
L'avenir de l'entraînement décentralisé pourrait dépendre de la conception de modèles spécialisés de petite taille pour des applications de niche, plutôt que de modèles de pointe centrés sur l'AGI.
Avec le passage aux modèles comme OpenAI o1, la demande d'inférence explosera, créant des opportunités pour les réseaux d'inférence décentralisés.
Imaginez : un modèle d'intelligence artificielle massif et révolutionnaire, non pas développé dans des laboratoires secrets d'élite, mais façonné par des millions de personnes ordinaires. Les GPU des joueurs créent souvent des scènes d'explosion théâtrales (comme dans Call of Duty), et maintenant ils prêtent leur matériel à quelque chose de plus grand - un modèle d'intelligence artificielle open-source, collectivement possédé, sans gardien central.
Dans un tel avenir, les modèles à l'échelle de la fondation ne se limiteront pas aux meilleurs laboratoires d'intelligence artificielle.
Mais ancrons cette vision dans la réalité actuelle. Actuellement, la majorité de l'entraînement d'intelligence artificielle lourd reste concentrée dans des centres de données centralisés, ce qui pourrait rester la norme pendant un certain temps.
Des entreprises comme OpenAI étendent leurs vastes clusters. Elon Musk a récemment annoncé que xAI est sur le point de construire un centre de données équivalent à 200 000 GPU H100.
Mais il ne s'agit pas seulement de compter les GPU bruts. Le taux d'utilisation des FLOPS du modèle (MFU) est un indicateur proposé par Google dans son article de recherche PaLM de 2022, qui suit l'efficacité d'utilisation de la capacité maximale des GPU. Fait surprenant, le MFU oscille généralement entre 35 et 40%.
Pourquoi si bas ? Selon la loi de Moore, les performances des GPU ont explosé au cours des dernières années, mais les améliorations du réseau, de la mémoire et du stockage ont clairement pris du retard, créant un goulot d'étranglement. Par conséquent, les GPU se retrouvent souvent en attente de données.
Aujourd'hui, l'entraînement de l'intelligence artificielle reste hautement centralisé, en raison d'un mot - efficacité.
L'entraînement de grands modèles dépend des technologies suivantes :
Parallélisme des données : diviser les ensembles de données à travers plusieurs GPU pour exécuter des opérations en parallèle, accélérant ainsi le processus d'entraînement.
Parallélisme des modèles : distribuer les différentes parties du modèle entre plusieurs GPU, contournant ainsi les contraintes de mémoire.
Ces méthodes nécessitent que les GPU échangent constamment des données, rendant la vitesse d'interconnexion - le taux de transfert de données dans le réseau entre les ordinateurs - cruciale.
Alors que le coût de l'entraînement de modèles d'intelligence artificielle de pointe dépasse 1 milliard de dollars, chaque amélioration de l'efficacité est essentielle.
Les centres de données centralisés, grâce à des interconnexions à haute vitesse, peuvent transférer rapidement des données entre GPU et économiser d'énormes coûts durant le temps d'entraînement, ce qui est inégalé dans des environnements décentralisés.
Surmonter la lenteur des vitesses d'interconnexion
Si vous parlez aux gens dans le domaine de l'intelligence artificielle, beaucoup vous diront que l'entraînement décentralisé est tout simplement impossible.
Dans un cadre décentralisé, les clusters GPU ne coexistent pas physiquement, ce qui rend le transfert de données entre eux beaucoup plus lent, devenant ainsi un goulot d'étranglement. L'entraînement nécessite que les GPU synchronisent et échangent des données à chaque étape. Plus ils sont éloignés, plus la latence est élevée. Une latence plus élevée signifie des vitesses d'entraînement plus lentes et des coûts plus élevés.
Alors que cela pourrait prendre des jours dans un centre de données centralisé, cela pourrait s'étendre à deux semaines dans un centre de données décentralisé, et les coûts seraient également plus élevés. Cela n'est tout simplement pas viable.
Mais cela est sur le point de changer.
La bonne nouvelle est que l'intérêt des chercheurs pour l'entraînement distribué a explosé. Les chercheurs explorent simultanément diverses méthodes, et une grande quantité de recherches et de publications prouve cela. Ces avancées s'accumuleront et fusionneront, accélérant les progrès dans ce domaine.
Il s'agit également de tests en environnement de production pour voir dans quelle mesure nous pouvons repousser les limites.
Certaines techniques d'entraînement décentralisé peuvent déjà traiter de petits modèles dans des environnements de lente interconnexion. Actuellement, les recherches de pointe poussent l'application de ces méthodes dans des modèles de grande taille.
Par exemple, l'article open-source DiCoLo de Prime Intellect présente une méthode pratique impliquant des 'îles' GPU, exécutant 500 étapes locales avant synchronisation, réduisant la demande en bande passante de 500 fois. La recherche de Google DeepMind sur de petits modèles s'est déjà étendue à l'entraînement de modèles de 10 milliards de paramètres en moins d'un mois, et maintenant elle est entièrement open-source.
Nous Research améliore les normes avec leur cadre DisTrO, qui utilise des optimiseurs pour réduire de 10 000 fois les exigences de communication entre GPU tout en entraînant un modèle de 1,2 milliard de paramètres, ce qui est époustouflant.
Et cette dynamique continue de croître. En décembre dernier, Nous a annoncé un pré-entraînement d'un modèle de 15 milliards de paramètres, avec une courbe de perte (comment l'erreur du modèle diminue au fil du temps) et un taux de convergence (la vitesse à laquelle les performances du modèle se stabilisent) qui correspondent même ou dépassent les résultats typiques de l'entraînement centralisé. Oui, c'est mieux que la centralisation.
Le parallélisme SWARM et le DTFMHE sont d'autres méthodes distinctes pour entraîner de grands modèles d'IA à travers différents types d'appareils, même lorsque ces appareils ont des vitesses et des niveaux de connexion différents.
Gérer une variété de matériels GPU est un autre grand défi, y compris les GPU de consommation typiques à mémoire limitée dans un réseau décentralisé. Des techniques comme le parallélisme des modèles (diviser les couches du modèle entre les appareils) peuvent aider à réaliser cela.
L'avenir de l'entraînement décentralisé
Actuellement, la taille des modèles dans les méthodes d'entraînement décentralisées est encore bien en dessous des modèles de pointe (il a été rapporté que les paramètres GPT-4 approchent un trillion, 100 fois plus que le modèle de 10B de Prime Intellect). Pour atteindre une véritable échelle, nous devons réaliser des percées dans l'architecture des modèles, l'infrastructure réseau améliorée et une meilleure distribution des tâches entre appareils.
Nous pouvons avoir de grands rêves. Imaginez un monde où la puissance de calcul d'intelligence artificielle rassemblée par des entraînements décentralisés dépasse même celle des plus grands centres de données centralisés.
Pluralis Research (une équipe d'élite axée sur la formation décentralisée, à suivre de près) estime que cela n'est pas seulement possible, mais inévitable. Les centres de données centralisés sont limités par des conditions physiques comme l'espace et la disponibilité électrique, tandis que les réseaux décentralisés peuvent tirer parti d'un véritable pool de ressources mondiales illimité.
Même Jensen Huang de NVIDIA a reconnu que l'entraînement décentralisé asynchrone peut libérer le véritable potentiel d'évolutivité de l'intelligence artificielle. Les réseaux d'entraînement distribués sont également plus tolérants aux pannes.
Ainsi, dans un monde futur possible, les modèles d'intelligence artificielle les plus puissants seront entraînés de manière décentralisée.
C'est une perspective excitante, mais je ne suis pas encore entièrement convaincu. Nous avons besoin de preuves plus solides pour prouver que l'entraînement décentralisé des plus grands modèles est techniquement et économiquement viable.
Je vois un énorme espoir dans cela : l'un des meilleurs aspects de l'entraînement décentralisé pourrait résider dans la conception de petits modèles open-source dédiés pour des cas d'utilisation spécifiques, plutôt que de rivaliser avec des modèles de pointe pilotés par l'AGI. Certaines architectures, en particulier les modèles non transformateurs, ont déjà prouvé qu'elles conviennent très bien aux environnements décentralisés.
Cette énigme a un autre aspect : les tokens. Une fois que l'entraînement décentralisé devient viable à grande échelle, les tokens peuvent jouer un rôle clé dans l'incitation et la récompense des contributeurs, guidant efficacement ces réseaux.
Le chemin vers la réalisation de cette vision est encore long, mais les progrès sont encourageants. Étant donné que l'échelle des modèles futurs dépassera la capacité d'un seul centre de données, les avancées dans l'entraînement décentralisé bénéficieront à tout le monde, y compris aux grandes entreprises technologiques et aux meilleurs laboratoires de recherche en intelligence artificielle.
L'avenir est distribué. Quand une technologie a un potentiel si vaste, l'histoire montre qu'elle est toujours meilleure et plus rapide que ce que tout le monde prévoyait.
2.3. Inference décentralisée
Aujourd'hui, la majeure partie de la puissance de calcul de l'intelligence artificielle est concentrée sur l'entraînement de modèles à grande échelle. Les meilleurs laboratoires d'intelligence artificielle sont en concurrence pour voir qui peut développer le meilleur modèle de base et, finalement, atteindre l'AGI.
Mais je pense que dans les années à venir, cette concentration sur le calcul d'entraînement se déplacera vers l'inférence. À mesure que l'intelligence artificielle s'intègre de plus en plus dans les applications que nous utilisons quotidiennement - des soins de santé au divertissement - la quantité de ressources de calcul nécessaires pour soutenir l'inférence sera incroyable.
Ce n'est pas seulement une conjecture. L'évolutivité du calcul en temps d'inférence est le dernier mot à la mode dans le domaine de l'intelligence artificielle. OpenAI a récemment publié un aperçu/mini version de son dernier modèle 01 (nom de code : Strawberry), est-ce un changement majeur ? Prenez le temps de réfléchir, en vous demandant d'abord quelles étapes vous devez suivre pour répondre à cette question, puis avancez progressivement.
Ce modèle a été conçu pour des tâches plus complexes nécessitant une planification approfondie, comme des mots croisés, ainsi que pour des questions nécessitant un raisonnement plus profond. Vous remarquerez qu'il ralentit, nécessitant plus de temps pour générer des réponses, mais les résultats sont plus réfléchis et approfondis. Ses coûts d'exploitation sont également beaucoup plus élevés (25 fois ceux de GPT-4).
Le changement de focalisation est clair : le prochain saut de performance en intelligence artificielle ne viendra pas seulement de l'entraînement de modèles plus grands, mais également de l'extension des applications de calcul lors de l'inférence.
Si vous voulez en savoir plus, certaines études montrent :
L'extension des calculs d'inférence par rééchantillonnage peut apporter de grandes améliorations entre diverses tâches.
Il existe également une loi d'échelle pour l'inférence.
Une fois que des modèles puissants sont entraînés, leurs tâches d'inférence - ce que fait le modèle - peuvent être transférées vers le réseau de calcul décentralisé. Cela a du sens, car :
Les ressources nécessaires pour l'inférence sont beaucoup moins importantes que pour l'entraînement. Après l'entraînement, des techniques comme la quantification, l'élagage ou la distillation peuvent être utilisées pour compresser et optimiser le modèle. Ils peuvent même être décomposés pour fonctionner sur des appareils de consommation quotidiens. Vous n'avez pas besoin de GPU haut de gamme pour supporter l'inférence.
Cela s'est déjà produit. Exo Labs a trouvé comment exécuter un modèle Llama3 de 450B paramètres sur du matériel de consommation tel que MacBook et Mac Mini. L'inférence distribuée sur plusieurs appareils peut gérer efficacement et économiquement des charges de travail à grande échelle.
Une meilleure expérience utilisateur. Exécuter des calculs plus près des utilisateurs peut réduire la latence, ce qui est crucial pour des applications en temps réel comme les jeux, la réalité augmentée ou les voitures autonomes. Chaque milliseconde compte.
Imaginez l'inférence décentralisée comme le CDN (réseau de distribution de contenu) de l'intelligence artificielle : l'inférence décentralisée utilise la puissance de calcul locale pour fournir des réponses d'intelligence artificielle en un temps record, plutôt que de se connecter à un serveur proche pour fournir rapidement des sites Web. En adoptant l'inférence décentralisée, les applications d'intelligence artificielle deviennent plus efficaces, plus rapides et plus fiables.
Les tendances sont évidentes. Le nouveau M4 Pro d'Apple rivalise avec le RTX 3070 Ti de NVIDIA, qui, jusqu'à récemment, était le territoire des joueurs hardcore. Notre matériel devient de plus en plus capable de gérer des charges de travail avancées en intelligence artificielle.
La valeur ajoutée de Crypto
Pour qu'un réseau d'inférence décentralisé réussisse, il doit avoir des incitations économiques convaincantes. Les nœuds du réseau doivent être compensés pour leur contribution en puissance de calcul. Ce système doit assurer une distribution équitable et efficace des récompenses. La diversité géographique est nécessaire pour réduire la latence des tâches d'inférence et améliorer la tolérance aux pannes.
Quelle est la meilleure façon de construire un réseau décentralisé ? Crypto.
Les tokens fournissent un mécanisme puissant pour coordonner les intérêts des participants, garantissant que tout le monde travaille vers le même objectif : étendre le réseau et augmenter la valeur des tokens.
Les tokens ont également accéléré la croissance du réseau. Ils ont aidé à résoudre le problème classique du 'qui vient d'abord, l'œuf ou la poule' en récompensant les premiers utilisateurs et en stimulant l'engagement dès le premier jour, un problème qui a freiné le développement de la plupart des réseaux.
Le succès de Bitcoin et d'Ethereum en témoigne - ils ont déjà rassemblé le plus grand pool de puissance de calcul sur Terre.
Les réseaux d'inférence décentralisés seront les suivants. Grâce à leur diversité géographique, ils réduisent la latence et améliorent la tolérance aux pannes, rapprochant l'intelligence artificielle des utilisateurs. Sous l'incitation cryptographique, ils s'étendront plus rapidement et mieux que les réseaux traditionnels.
(À suivre, restez à l'écoute)