Données Reddit DAO et tout ce qu'il faut savoir sur la formation des modèles Gen AI

Le cryptonomiste a interviewé Anna Kazlauskas, PDG et co-fondatrice de Vana's, qui Reddit Data DAO, qui, au cours de la première semaine, a vu 140 000 utilisateurs s'inscrire avec des comptes Reddit vérifiés. Anna travaille désormais avec des développeurs pour créer des DAO de données pour d'autres plateformes, comme LinkedIn et ChatGPT. 
En plus des DAO, ils disposent d'autres moyens permettant aux utilisateurs de regrouper leurs données dans des ensembles de données qui peuvent ensuite être utilisés pour la formation de modèles GenAI, comme la création de portraits ou d'avatars.
Au-delà de ce que fait Vana, nous avons parlé avec Anna de la croissance de l'espace décentralisé de l'IA, à mesure que les plateformes aident les gens à utiliser et à monétiser leurs données pour de nouvelles applications. 
Pouvez-vous donner un aperçu de Vana et de sa mission dans l’espace de l’IA décentralisée ?
Vana est une plate-forme d'IA appartenant aux utilisateurs, alimentée par des données appartenant aux utilisateurs. Notre mission est que les utilisateurs soient propriétaires de leurs données et de la valeur qu'elles créent grâce aux modèles d'IA. Il existe un besoin croissant de données de formation supplémentaires pour améliorer les performances des modèles d’IA, car en fin de compte, la qualité des modèles d’IA dépend de leurs données. 
Par exemple, LLaMA 3 est formé sur environ 15 000 milliards de mots, ce qui correspond à peu près à la quantité de données disponibles sur l'Internet public. Les entreprises tentent désormais d’acquérir davantage de données, déboursant parfois des centaines de millions de dollars pour cela. Les principales plates-formes technologiques accumulent des données utilisateur précieuses et créent de nouvelles technologies sans tenir compte des autorisations des utilisateurs, ce qui freine l'innovation. 
Chez Vana, nous libérons les données de ces jardins clos en les plaçant sous le contrôle des utilisateurs. Nous permettons aux utilisateurs de contribuer directement aux modèles d'IA, de choisir comment leurs données sont utilisées et comment l'IA est utilisée. Nous pensons que nous pouvons réellement surpasser les modèles leaders si nous pouvons accéder aux meilleures données, en battant les performances de modèles comme GPT-6 en accédant aux données disponibles uniquement directement auprès des utilisateurs. Vana est architecturé comme une blockchain de couche 1 conçue dès le départ pour les données privées appartenant aux utilisateurs. 
Le Reddit Data DAO a vu 140 000 utilisateurs s'inscrire au cours de sa première semaine. Selon vous, qu’est-ce qui a motivé cette adoption rapide et quelles leçons avez-vous tirées de ce lancement ?
Le Reddit Data DAO a été un succès incroyable du point de vue de l'adoption, avec plus de 140 000 utilisateurs inscrits au cours de la première semaine. Ce niveau d’adoption est inhabituel pour les DAO : il s’agit désormais du plus grand DAO de données de l’histoire. 
L’une des raisons qui ont conduit à une adoption rapide est qu’une grande partie de l’histoire avait déjà été exposée, les utilisateurs étant de plus en plus conscients de la valeur de leurs données grâce à la couverture médiatique des ventes de données. Réaliser que Reddit vend vos données pour 200 millions de dollars ou qu'Apple achète des données pour 50 millions de dollars vous rend beaucoup plus conscient de leur valeur. 
Il existe également un fort appétit pour les produits appartenant aux utilisateurs construits dans le Web3 qui vont au-delà des produits DeFi familiers vers une nouvelle frontière de propriété. Nous observons cette tendance dans des projets tels que Farcaster, les réseaux DePIN et les DAO de données construits sur Vana, qui représentent une nouvelle vague de produits appartenant aux utilisateurs.
Une leçon importante était la nécessité de prouver les exigences en matière de contribution. Plus d'un million de personnes ont essayé de rejoindre le Reddit Data DAO, mais beaucoup ne répondaient pas aux critères d'avoir un compte Reddit existant depuis un certain temps et contenant une quantité minimale de données. Cela souligne l’importance de disposer de mécanismes pour garantir des contributions de qualité.
Vous avez mentionné votre intention de créer des DAO de données pour des plateformes telles que LinkedIn et Chat GPT. Quels défis et opportunités uniques voyez-vous dans l’expansion vers ces plateformes ?
Vana est un réseau peer to peer pour les données appartenant aux utilisateurs, et les constructeurs ont créé divers DAO de données tels que Reddit Data DAO, LinkedIn Data DAO et ChatGPT Data DAO. 
Ces différentes sources de données sont incroyablement précieuses pour entraîner des modèles d’IA, mais elles sont actuellement enfermées dans des jardins clos. Chacune de ces plates-formes peut être difficile à extraire des données, mais cela est toujours possible en raison de la réglementation des données. 
Comment Vana permet-il aux utilisateurs de monétiser leurs données, et quels sont quelques exemples de la manière dont les utilisateurs en ont bénéficié ?
Notre objectif est d'aider les utilisateurs à monétiser et à protéger simultanément leurs données. Par exemple, avec Reddit Data DAO, ils forment actuellement un modèle appartenant aux utilisateurs (principalement axé sur le shitposting à ce stade, mais c'est un début). Les utilisateurs sont payés à chaque fois que le modèle est utilisé, ce qui crée une incitation économique à la copropriété du modèle. 
Et les données des utilisateurs restent entièrement privées : plutôt que de vendre des données, elles sont simplement « louées » et les données sous-jacentes ne quittent jamais l'environnement sécurisé. 
Face aux préoccupations croissantes concernant la confidentialité des données, comment Vana garantit-elle que les données des utilisateurs sont sécurisées et utilisées de manière éthique au sein des DAO de données ?
La confidentialité des données est passée d’une simple question idéologique ou de préférence à une question économique. Si quelqu’un possède vos données, il peut potentiellement créer une version IA de vous qui aura une valeur économique, générera des revenus et potentiellement vous concurrencera. C'est pourquoi la confidentialité est si importante et essentielle pour Vana. 
Nous avons inventé un concept appelé « données non dépositaires », qui s'apparente à un portefeuille non dépositaire mais pour vos données personnelles. Il garde vos données sous votre contrôle total, autorisé par votre clé privée. Cela permet à vos données d'être portables entre les applications et ajoute une couche financière native, permettant de créer des éléments tels que des DAO de données.
Comment les ensembles de données créés via les DAO de données de Vana améliorent-ils la formation de modèles d'IA génératifs, et quels avantages offrent-ils par rapport aux ensembles de données traditionnels ?
En règle générale, les modèles d’IA sont entraînés à partir de données extraites de l’Internet public – des données disponibles sans connexion nulle part. Mais si vous y réfléchissez du point de vue de l’enseignement du monde à un enfant, vous ne voudriez pas qu’il se contente d’errer au hasard sur l’Internet public. Vous voudriez leur fournir des informations de haute qualité qui pourraient ne pas être accessibles au public – des éléments comme des écrits, des processus de réflexion ou des messages de haute qualité. L’IA s’entraîne principalement sur des données publiques, mais elle a vraiment besoin de données privées pour repousser les frontières. C’est ce que permettent les DAO de données : les utilisateurs apportent leurs données privées pour créer une IA appartenant à l’utilisateur. 
Nous pensons que l’IA devrait être créée davantage comme un logiciel open source, par une communauté. Notre objectif est de donner aux chercheurs l’accès aux meilleurs ensembles de données actuellement retenus captifs dans des jardins clos afin de repousser les limites de la performance de l’IA.
Quelles tendances prévoyez-vous dans l’espace de l’IA décentralisée au cours des 5 à 10 prochaines années, et comment Vana se positionne-t-elle pour devenir leader dans ce paysage en évolution ?
L’espace décentralisé de l’IA s’est vraiment accéléré au cours de la dernière année. Par exemple, à EthCC cette année, il y avait un événement d'IA décentralisé presque tous les jours, contre aucun l'année dernière. Les gens cherchent comment appliquer à l’espace de l’IA des technologies souveraines qui ont bien fonctionné pour la finance. Chez Vana, nous pensons que les données sont au cœur de tout cela. Pour créer une IA appartenant aux utilisateurs et une IA souveraine, vous avez besoin de données appartenant aux utilisateurs, c'est pourquoi nous nous concentrons sur ces données.
Au cours des 5 à 10 prochaines années, je suis enthousiasmé par quelques étapes importantes : 1) Un modèle de fondation appartenant aux utilisateurs, propriété collective de 100 millions de personnes. 2) Des agents d'IA plus autonomes, capables de gagner de l'argent par eux-mêmes, et garantissant que ces agents appartiennent véritablement aux utilisateurs qui ont contribué à leur formation. 
L’IA jouant un rôle économique de plus en plus important, garantissant que le pouvoir soit largement distribué d’un point de vue technique et social. 
Pouvez-vous nous en dire plus sur votre collaboration avec les développeurs pour créer des DAO de données ? Quels sont les projets innovants actuellement en cours ?
Vana est un réseau sans autorisation, donc n'importe qui peut créer un DAO de données. Il s’agit d’une blockchain de couche un conçue dès le départ pour les données privées appartenant aux utilisateurs. Il existe aujourd'hui plus de 100 DAO de données déployés sur le testnet Satori. De nombreux constructeurs sont les premiers participants de l’écosystème Bittensor et comprennent profondément l’intersection de la cryptographie et de l’IA. Certains projets notables incluent Twitter Data DAO, LinkedIn Data DAO et GitHub Data DAO. Nous travaillons également en partenariat avec des projets dans l'espace ZK et l'espace d'outils DAO pour rendre les DAO de données encore plus faciles à créer et à gérer.
Quelles considérations éthiques sont les plus pressantes dans le développement de l’IA décentralisée, et comment Vana aborde-t-elle ces problèmes ?
Je pense que l’une des plus grandes questions en matière d’IA aujourd’hui est de savoir qui doit posséder les modèles et décider quelles données y entrent. Alors que nous commençons à nous fier de plus en plus à l’IA pour obtenir des informations, celles-ci deviennent notre source de vérité. Celui qui décide de ce qui entre dans l’IA décide essentiellement de la vérité. C’est effrayant d’avoir une seule entité contrôlant tout cela. Chez Vana, nous pensons que c'est la communauté, et non une seule entreprise, qui devrait prendre ces décisions.
Une autre question qui se pose dans l’IA décentralisée est la suivante : si l’IA est entièrement décentralisée, que se passera-t-il si l’IA devient malveillante et qu’il n’y a pas de bouton d’arrêt ? La façon dont nous abordons cela chez Vana est que les modèles d'IA appartiennent en fin de compte aux utilisateurs qui y ont contribué, de sorte qu'ils gardent toujours un contrôle total. 
Quels conseils donneriez-vous aux aspirants entrepreneurs souhaitant entrer dans l’espace de l’IA décentralisée, sur la base de vos expériences avec Vana et Data DAO ?
C’est le moment idéal pour commencer à construire dans l’espace de l’IA décentralisée. Il existe de nombreuses opportunités d’appliquer certaines des primitives crypto-économiques qui ont bien fonctionné pour DeFi à la nouvelle catégorie émergente de données décentralisées et d’IA. Je recommanderais également de passer du temps à plonger dans l’espace de l’IA open source non cryptographique pour en savoir plus sur certaines des approches que les gens adoptent en dehors d’un contexte cryptographique. Je me plongerais dans certains des projets existants pour voir quels types de primitives sont disponibles pour construire, y compris essayer de démarrer un DAO de données sur Vana. 
Découvrez-en plus sur le créateur

Dernières actualités