À l'ère de l'intelligence artificielle, l'importance des données est indiscutable. En tant que fondation des grands modèles AI, la qualité des sources de données d'entraînement détermine les capacités de l'AI et l'expérience utilisateur du produit. Les géants technologiques d'Internet qui disposent de données d'affaires massives et multidimensionnelles ont un avantage en raison de l'accumulation de données au cours de nombreuses années d'exploitation de plateformes Internet et des scénarios d'utilisation actuels des utilisateurs, générant une grande quantité de données privées, ce qui leur confère un avantage évident dans l'optimisation des modèles d'entraînement.
Après le lancement des premiers produits AI, ceux-ci optimisent leurs modèles grâce aux retours d'interaction avec leur propre base d'utilisateurs, générant ainsi un effet de cercle vertueux de données, permettant une optimisation continue de l'itération. À long terme, cela deviendra un avantage concurrentiel pour les produits AI. Cependant, les startups dans le domaine de l'AI souffrent du manque de sources de données en quantité et en qualité suffisantes pour entraîner leurs modèles, ce qui crée des barrières de données et des îlots de données qui freinent le développement de l'intelligence artificielle.
VANA : Briser les îlots de données, permettre aux utilisateurs de partager la valeur des données
Au début de l'internet, une multitude d'entreprises internet ont émergé, perturbant les modèles opérationnels traditionnels. Cependant, avec le développement du secteur, les grandes entreprises technologiques ont commencé à monopoliser le marché, contrôlant les points d'entrée du trafic et possédant de vastes quantités de données utilisateur. Ces grandes plateformes peuvent utiliser ces données pour des recommandations algorithmiques et des prêts sur la base de crédits pour en tirer de la valeur commerciale. Reddit a généré 200 millions de dollars de revenus en vendant du contenu généré par les utilisateurs comme données d'entraînement AI, mais les utilisateurs qui ont généré ces données n'ont pas reçu de part de leur valeur et de leurs résultats. L'émergence de VANA brisera les îlots de données, permettant aux utilisateurs de posséder leurs données et de partager les bénéfices qui en résultent.
VANA est un protocole de souveraineté des données ouvert et décentralisé, agissant en tant que L1 compatible avec EVM, permettant aux utilisateurs de posséder leurs propres données et de partager les revenus générés par l'intelligence artificielle grâce à leurs données personnelles.
VANA résout le problème de la provenance des données d'entraînement des modèles AI.
Il est bien connu que les données d'entraînement des modèles AI des entreprises technologiques Internet proviennent principalement de web scraping, d'achats payants et de l'accumulation de leurs propres affaires. L'avantage des données de scraping réside dans leur facilité d'accès, mais leur qualité est faible et le nettoyage est difficile ; les données achetées sont souvent homogènes en raison de la concurrence commerciale, avec peu de sources de données commerciales véritablement précieuses, ce qui rend difficile d'apporter un avantage différentiel aux modèles AI ; les données accumulées dans des scénarios commerciaux ont une valeur élevée, mais cette méthode n'est pas favorable aux petites entreprises émergentes.
Les données de VANA proviennent des contributions des utilisateurs au sein de l'écosystème. Les utilisateurs participant à l'écosystème de VANA contribuent des données de réseaux sociaux tels que X, LinkedIn ou de l'Internet des objets, ces données étant stockées en toute sécurité hors chaîne. Après vérification et nettoyage, ces données sont appliquées au développement de modèles AI. Les utilisateurs participants peuvent obtenir des droits de gouvernance de DataDAO après avoir contribué des données, décider des droits d'utilisation des données et partager la valeur générée par les données.
Les avantages du modèle VANA
Adopter une méthode de gouvernance décentralisée permettant aux utilisateurs de posséder leurs données et de décider eux-mêmes de la manière dont elles sont utilisées.
Les utilisateurs peuvent convertir leurs données en actifs échangeables via VANA, pour des applications d'intelligence artificielle décentralisée.
En utilisant des preuves à divulgation nulle de connaissance (ZKP) et un environnement d'exécution de confiance (TEE) pour garantir la confidentialité et la sécurité des données.
Composition du réseau VANA
Les participants de VANA comprennent principalement des contributeurs de données, des validateurs, des stakers, des consommateurs de données et DLP (Créateurs de pools de liquidité de données), c'est-à-dire DataDAO.
1. Contributeurs de données
Les utilisateurs participants peuvent choisir de contribuer leurs données à un DataDAO établi dans le réseau VANA, les données soumises étant stockées hors chaîne, tandis que la preuve de contribution est enregistrée sur la chaîne. Prenons l'exemple de ChatGPT DataDAO : les utilisateurs demandent par e-mail à OpenAI d'exporter les données de ChatGPT, puis après avoir reçu la réponse par e-mail, ils téléchargent les données et le lien via gptdatadao.org.
2. DataDAO
Staker au moins 100 dollars de VANA peut créer et enregistrer un DataDAO. Après l'enregistrement, le DataDAO apparaîtra sur DataHub pour que les contributeurs de données puissent le choisir. Pour encourager le développement continu de DataDAO, VANA offrira des récompenses aux 16 DataDAO les mieux classés par les données stakées. Les récompenses de staking pour les trois premières années seront de 15 % du montant total des jetons, avec un cycle de récompense tous les 21 jours, et le déverrouillage des fonds stakés nécessitera 7 jours. Le montant des récompenses de VANA est déterminé par le volume de staking, la durée du staking et le nombre de récompenses obtenues par le DataDAO. Un DataDAO doit staker au moins 10 000 VANA pour avoir une chance de recevoir une récompense. 50 % des récompenses sont fixes et reviennent au staker, le reste étant décidé par le DataDAO quant à son utilisation.
Actuellement, 17 DataDAO ont été créés et enregistrés, comprenant Volara, qui se concentre sur les données Twitter/X, R/DataDAO pour Reddit, et DLP Labs pour les données de CV LinkedIn. 140 000 utilisateurs Reddit ont rejoint R/DataDAO, et le premier modèle AI possédé par un utilisateur a déjà été formé.
3. Validateurs
Les validateurs sont responsables de la sécurité, de l'intégrité et de la fonctionnalité de la blockchain Vana Layer 1, garantissant que les transactions de données sont correctement validées, enregistrées et ajoutées à la blockchain, comprenant principalement des validateurs L1 et des validateurs Satya.
Les validateurs L1 sont responsables de la sécurité et du consensus de VANA. Un staking minimum de 35 000 VANA est requis pour devenir L1 Validators, avec 64 validateurs L1 initiaux, puis étendus à 128. Chaque bloc génère 5 VANA, et un temps d'arrêt subira une pénalité de 10 %, les récompenses diminuent de 10 % chaque année.
Les validateurs Satya fournissent un environnement d'exécution de confiance (TEE) pour vérifier les données fournies par les utilisateurs, garantissant ainsi la sécurité et la confidentialité des données pendant le processus de vérification. Cela permet d'obtenir des récompenses VANA.
4. Consommateurs de données
Les développeurs de modèles AI, en tant que consommateurs de données, choisissent et achètent les droits d'accès aux ensembles de données adaptés à leurs besoins de développement de modèles AI, utilisant l'infrastructure de VANA pour l'entraînement AI et l'analyse de données, collaborant avec DataDAO pour optimiser les modèles AI.
Prenons l'exemple de ChatGPT DataDAO : les utilisateurs téléchargent des liens et des fichiers de données qui sont transmis de manière cryptée aux validateurs Satya. Après décryptage, les validateurs Satya vérifient et assurent l'authenticité des données téléchargées par les utilisateurs, s'assurant qu'elles n'ont pas été altérées.
Scénarios d'application et modèle économique de VANA
1. Les validateurs stakent VANA pour garantir la sécurité du réseau et valider les données, obtenant ainsi des récompenses VANA.
2. VANA en tant que GAS pour exécuter des contrats, interagir avec DataDAO et d'autres opérations sur la chaîne.
3. Les utilisateurs stakent VANA dans DataDAO pour obtenir des récompenses de staking en VANA.
4. Les consommateurs de données utilisent par défaut VANA lors de l'accès aux données.
5. Les détenteurs de VANA participent à la gouvernance et votent sur les propositions, VANA étant le principal actif d'échange pour les jetons émis par DataDAO.
L'offre totale de VANA est limitée à 120 millions de jetons, la répartition des jetons est indiquée dans le graphique ci-dessous.
Communauté
Comprend principalement les récompenses pour les contributions de données de haute qualité aux DataDAO, l'airdrop pour les premiers utilisateurs, et les développeurs. L'offre TGE est de 20,3 % de VANA, sans période de verrouillage.
Écosystème
Comprend principalement les jetons émis par DataDAO, les récompenses de bloc et les partenaires, avec une offre TGE de 4,8 % de VANA, sans période de verrouillage.
Investisseurs
Vana a actuellement levé un total de 25 millions de dollars, y compris un financement stratégique de 5 millions de dollars de Coinbase Ventures, 18 millions de dollars de financement de série A de Paradigm et 2 millions de dollars de financement de pré-amorçage de Polychain.
Contributeurs principaux
En résumé, lors de l'événement TGE, le volume total de circulation de VANA est de 30 millions, dont 4,8 millions proviennent du lancement de Binance.
Les risques juridiques du modèle VANA s'il existe en Chine.
Le projet de données de modèle AI décentralisé VANA vise à résoudre le problème des données d'entraînement de modèle AI à moindre coût, permettant aux entrepreneurs de modèles AI d'accéder à des données d'entraînement de haute qualité. Cela brise les îlots de données créés par de grandes entreprises Internet, rendant possible l'accès aux données des utilisateurs d'Alibaba par Tencent pour former des modèles AI, et abaisse le seuil pour les individus et entreprises dédiés à l'entrepreneuriat en modèles AI. Cependant, ce modèle pourrait présenter des risques de sortie de données en Chine.
L'Administration nationale de cyberspace a publié (Lignes directrices pour l'évaluation de la sécurité des sorties de données (première édition)) qui stipulent clairement que les comportements de sortie de données incluent :
(1) Les responsables du traitement des données transféreront et stockeront les données collectées et produites dans le pays à l'étranger.
(2) Les données collectées et générées par le responsable du traitement des données sont stockées dans le pays, et les institutions, organisations ou personnes à l'étranger peuvent les consulter, les extraire, les télécharger et les exporter.
(3) Autres comportements de sortie de données définis par l'Administration nationale de cyberspace.
(Loi sur la gestion des entrées et sorties de la République populaire de Chine) L'article 89 stipule clairement que la sortie fait référence au déplacement de la Chine continentale vers d'autres pays ou régions, vers la région administrative spéciale de Hong Kong, la région administrative spéciale de Macao, ou vers la région de Taïwan. Cela montre que le jugement sur la sortie est basé sur la juridiction judiciaire.
La création de DataDAO et la contribution des utilisateurs de données ne sont soumises à aucune restriction. Les consommateurs de données n'ont pas besoin de passer par le KYC, il leur suffit de payer avec VANA pour accéder aux données collectées. Dans ce cas, la participation des utilisateurs nationaux à divers DataDAO pour contribuer des données de réseaux sociaux et de CV pourrait impliquer une sortie de données.
Définition des informations personnelles : selon l'article 76 de la (Loi sur la cybersécurité de la République populaire de Chine) : les informations personnelles désignent les informations pouvant identifier une personne physique, enregistrées par voie électronique ou par d'autres moyens, y compris mais sans s'y limiter le nom, la date de naissance, le numéro de carte d'identité, les informations biométriques, l'adresse, le numéro de téléphone, etc.
Les données collectées par DataDAO, telles que les CV et les données de santé, peuvent impliquer des informations personnelles comme le nom, la date de naissance, le numéro de téléphone, voire des informations personnelles sensibles. (Loi sur la protection des informations personnelles de la République populaire de Chine) Il existe des restrictions sur l'utilisation de ces informations et sur les transferts transfrontaliers.