Nell’era dell’intelligenza artificiale, l’importanza dei dati è evidente. I dati costituiscono la base di modelli di intelligenza artificiale di grandi dimensioni e la qualità delle origini dati di addestramento determina le capacità dell'intelligenza artificiale e l'esperienza dell'utente del prodotto. I giganti della tecnologia Internet con grandi quantità di dati aziendali multidimensionali hanno vantaggi di scenario. Attraverso anni di accumulo di dati durante il funzionamento della piattaforma Internet e gli scenari di utilizzo della piattaforma esistenti da parte degli utenti, è possibile generare una grande quantità di dati privati, il che ha evidenti vantaggi nell'addestramento e nell'ottimizzazione del modello.
Dopo il lancio dei primi prodotti di intelligenza artificiale, si basano sul feedback dei propri gruppi di utenti e sulle interazioni del prodotto per ottimizzare i modelli, con conseguente effetto volano dei dati e ottimizzazione e iterazione continue, che diventeranno un fossato per i prodotti di intelligenza artificiale in futuro. Tuttavia, le start-up nel campo dell’intelligenza artificiale soffrono di una quantità e di una qualità insufficienti delle fonti di dati per addestrare i modelli. Questo tipo di barriere di dati e la formazione di isole di dati ostacoleranno lo sviluppo dell’intelligenza artificiale.
VANA: rompere le isole di dati, gli utenti condividono il valore dei dati
Nei primi giorni di Internet, varie aziende hanno rivoluzionato i modelli operativi tradizionali, ma con lo sviluppo del settore, le grandi aziende tecnologiche di Internet hanno iniziato a monopolizzare il mercato, controllando gli ingressi al traffico e possedendo un'enorme quantità di dati degli utenti. Le piattaforme leader possono utilizzare questi dati per raccomandazioni algoritmiche e prestiti di credito per ottenere valore commerciale. Reddit ha guadagnato 200 milioni di dollari vendendo contenuti generati dagli utenti come dati di addestramento per AI, ma gli utenti che generano i dati non hanno condiviso il valore e i risultati dei dati. L'emergere di VANA romperà le isole di dati, consentendo agli utenti di possedere e condividere i benefici dei dati.
VANA è un protocollo di sovranità dei dati aperto e decentralizzato, compatibile con EVM come L1, che consente agli utenti di possedere i propri dati e contribuire con dati personali per condividere i profitti generati dall'intelligenza artificiale.
VANA affronta il problema delle fonti di dati per l'addestramento dei modelli AI
È ben noto che le fonti di dati per l'addestramento dei modelli AI delle aziende tecnologiche di Internet provengono principalmente da web scraping, acquisti a pagamento e sedimentazione di attività. I dati da web scraping sono facili da ottenere, ma di bassa qualità e difficili da pulire; i dati acquistati a pagamento sono altamente omogenei e, a causa della concorrenza commerciale, ci sono poche fonti di dati aziendali realmente preziose, rendendo difficile per i modelli AI ottenere un vantaggio differenziale; i dati sedimentati delle attività hanno un alto valore, ma questo metodo non è amichevole per le piccole e micro imprese start-up.
I dati di VANA provengono dai contributi degli utenti all'interno dell'ecosistema; gli utenti partecipanti contribuiscono con dati da X, LinkedIn e altri social media o dati IoT, tutti questi dati saranno memorizzati in modo sicuro off-chain. I dati, dopo essere stati verificati, puliti e contrassegnati, vengono utilizzati nello sviluppo di modelli AI. Gli utenti partecipanti che contribuiscono dati possono ottenere diritti di governance nel DataDAO, decidere sui diritti di utilizzo dei dati e condividere il valore generato dai dati.
Vantaggi del modello VANA
Utilizzando un metodo di governance decentralizzato, gli utenti possiedono la proprietà dei dati e possono decidere autonomamente come utilizzare i loro dati;
Gli utenti possono convertire i dati in asset scambiabili attraverso VANA, per applicazioni di intelligenza artificiale decentralizzata;
Utilizzando la prova a conoscenza zero (ZKP) e l'ambiente di esecuzione affidabile (TEE) per garantire la privacy e la sicurezza dei dati.
Composizione della rete VANA
I partecipanti di VANA includono principalmente i contribuenti di dati, i validatori, i puntatori, i consumatori di dati e DLP (Data Liquidity Pool Creator), cioè il DataDAO.
1. Contribuenti di dati
Gli utenti partecipanti possono scegliere di contribuire con i propri dati al DataDAO stabilito nella rete VANA, i dati inviati sono memorizzati off-chain, mentre la prova di contribuzione è memorizzata on-chain. Prendendo come esempio il DataDAO di ChatGPT, gli utenti richiedono via email a OpenAI di esportare i dati di ChatGPT, e dopo aver ricevuto una risposta via email, caricano i dati e il link di download tramite gptdatadao.org.
2. DataDAO
Puntando almeno 100 dollari in VANA, è possibile creare e registrare un DataDAO; dopo la registrazione, il DataDAO apparirà su DataHub per la scelta dei contribuenti di dati. Per promuovere lo sviluppo continuo del DataDAO, VANA fornirà premi ai DataDAO classificati tra i primi 16 per valore di staking di VANA; i premi per i primi tre anni di staking sono il 15% dell'offerta totale di token, con un ciclo di premio ogni 21 giorni, e il rilascio dello staking richiede 7 giorni. La quantità di premi di VANA è determinata dalla quantità di staking, dal tempo di staking e dal numero di premi ottenuti dal DataDAO. I DataDAO devono puntare almeno 10.000 VANA per avere la possibilità di ricevere premi. Il 50% dei premi è fisso per i puntatori, il restante è deciso dal DataDAO per il suo utilizzo.
Attualmente sono stati registrati 17 DataDAO, tra cui Volara, focalizzato sui dati di Twitter/X, R/DataDAO di Reddit e DLP Labs con dati di curriculum di LinkedIn, con 140.000 utenti di Reddit già uniti a R/DataDAO, e ora è stato addestrato il primo modello AI posseduto dagli utenti.
3. Validatori
I validatori sono responsabili della sicurezza, integrità e funzionalità della blockchain Vana Layer 1, garantendo che le transazioni di dati vengano verificate, registrate e aggiunte correttamente alla blockchain, principalmente includendo Validatori L1 e Validatori Satya.
I Validatori L1 sono responsabili della sicurezza e del consenso di VANA. È richiesta una puntata minima di 35.000 VANA per diventare Validatori L1; i Validatori L1 iniziali sono 64, con successivo ampliamento a 128. Ogni blocco genera 5 VANA; un malfunzionamento comporta una penalità del 10%, e i premi diminuiscono del 10% ogni anno.
I Validatori Satya forniscono un ambiente di esecuzione affidabile (TEE) per verificare i dati contribuiti dagli utenti, garantendo la sicurezza e la privacy dei dati durante il processo di verifica. In questo modo, ottengono premi VANA.
4. Consumatori di dati
Gli sviluppatori di modelli AI, come consumatori di dati, scelgono e acquistano l'accesso a set di dati adatti alle esigenze di sviluppo dei modelli AI, utilizzando le infrastrutture di Vana per l'addestramento AI e l'analisi dei dati, collaborando con DataDAO per ottimizzare i modelli AI.
Prendendo come esempio il DataDAO di ChatGPT, gli utenti caricano link e file di dati che vengono trasmessi in modo crittografato ai Validatori Satya. I Validatori Satya decrittografano, calcolano e verificano, garantendo l'autenticità dei dati caricati dagli utenti e che non siano stati alterati.
Casi d'uso e modello economico del token VANA
1. I Validatori puntano VANA per garantire la sicurezza della rete e verificare i dati per ottenere premi VANA;
2. VANA come GAS per operazioni on-chain come l'esecuzione di contratti e interazioni DataDAO;
3. Gli utenti puntano VANA nel DataDAO per ottenere premi di staking VANA;
4. I consumatori di dati utilizzano VANA per accedere ai dati per impostazione predefinita;
5. I detentori di VANA partecipano alla governance e votano sulle proposte; VANA è il principale pair di scambio per i token emessi da DataDAO.
L'offerta totale di VANA è limitata a 120 milioni, la distribuzione dei token è illustrata nella figura sottostante.
Comunità
Include principalmente premi per la contribuzione di dati di alta qualità per DataDAO, airdrop per utenti precoci e sviluppatori. L'offerta TGE è del 20,3% di VANA, senza periodo di blocco.
Ecosistema
Include principalmente il supporto per i token emessi da DataDAO, premi di blocco e partner, con un'offerta TGE del 4,8% di VANA e senza blocco.
Investitori
Vana ha attualmente ottenuto un totale di 25 milioni di dollari in finanziamenti, tra cui 5 milioni di dollari in un round strategico da Coinbase Ventures, 18 milioni di dollari in un round A da Paradigm e 2 milioni di dollari in un round seed da Polychain.
Contributori core
In sintesi, durante il TGE, il volume totale di VANA in circolazione è di 30 milioni, di cui 4,8 milioni provengono da Binance Launchpool.
Rischi legali del modello VANA in Cina
Il progetto di dati dei modelli AI decentralizzati VANA affronta i problemi dei dati per l'addestramento dei modelli AI a costi più bassi, consentendo agli imprenditori dei modelli AI di avere dati di addestramento di alta qualità, rompendo le isole di dati create dalle grandi aziende di Internet, rendendo possibile per Tencent acquisire dati degli utenti di Alibaba per addestrare modelli AI, abbassando la barriera per alcune persone e aziende dedicate all'imprenditorialità nei modelli AI, sebbene questo modello possa presentare rischi per l'uscita dei dati in Cina.
L'Amministrazione statale per la cybersicurezza ha specificato nel (Guida alla dichiarazione per la valutazione della sicurezza dell'uscita dei dati, Prima edizione) che le azioni di uscita dei dati includono:
(1) I processori di dati trasferiranno e memorizzeranno i dati raccolti e generati durante le operazioni nazionali all'estero;
(2) I dati raccolti e generati dai processori di dati sono memorizzati nel territorio; istituzioni, organizzazioni o individui all'estero possono consultare, richiedere, scaricare, esportare;
(3) Altre azioni di uscita dei dati stabilite dall'Amministrazione statale per la cybersicurezza.
(Legge sulla gestione dell'uscita e dell'ingresso della Repubblica Popolare Cinese) L'articolo ottantanove stabilisce chiaramente che l'uscita si riferisce al viaggio dalla Cina continentale ad altri paesi o regioni, dalla Cina continentale alla Regione Amministrativa Speciale di Hong Kong, alla Regione Amministrativa Speciale di Macao e dalla Cina continentale alla regione di Taiwan. Da ciò si può dedurre che la valutazione dell'uscita è basata sulla giurisdizione legale.
La creazione di DataDAO e il contributo di dati da parte degli utenti non hanno alcuna restrizione; i consumatori di dati non devono effettuare KYC, basta pagare VANA per accedere ai dati raccolti. In questo caso, la partecipazione degli utenti nazionali a vari DataDAO che contribuiscono con dati di social media e curriculum potrebbe comportare un'uscita di dati.
Definizione di informazioni personali: secondo l'articolo settantasei della (Legge sulla cybersicurezza della Repubblica Popolare Cinese): Le informazioni personali si riferiscono a tutte le informazioni registrate in modo elettronico o in altro modo, che possono identificare l'identità di una persona fisica da sole o in combinazione con altre informazioni, incluse ma non limitate a nome, data di nascita, numero di documento d'identità, informazioni biometriche, indirizzo, numero di telefono, ecc.
I dati raccolti da DataDAO, come i dati di curriculum e di salute, possono includere informazioni personali come nome, data di nascita, numero di telefono e anche informazioni personali sensibili. (Legge sulla protezione delle informazioni personali della Repubblica Popolare Cinese) Ci sono restrizioni sull'uso e sul transito di queste informazioni.