人工知能時代において、データの重要性は言うまでもありません。データはAI大モデルの基礎であり、トレーニングデータソースの質がAIの能力や製品ユーザー体験を決定します。膨大で多次元のビジネスデータを有するインターネットテクノロジーの巨頭は、シーンの利点を持ち、長年のインターネットプラットフォームの運営過程でのデータ蓄積やプラットフォーム上のユーザー使用シーンを通じて大量のプライベートデータを生成し、そのモデルトレーニングの最適化における利点は明らかです。
早期のAI製品が発売された後、その製品は自身のユーザー群体とのインタラクションフィードバックを活用してモデルを調整し、データのフライホイール効果を生み出し、継続的な最適化を実現しました。これが後にAI製品の競争優位性となります。しかし、AI業界のスタートアップは、モデルをトレーニングするための十分な量と質のデータソースが不足しており、このデータの壁とデータの孤島が人工知能の発展を妨げることになります。
VANA:データの孤島を打破し、ユーザーがデータの価値を共有します
初期のインターネットは多様性に富み、伝統的な業界の運営モデルを覆すさまざまなインターネット企業が登場しましたが、その後業界の発展に伴い、大手のインターネットテクノロジー企業が市場を独占し、大規模なインターネットプラットフォームがトラフィックの入り口を掌握し、膨大なユーザーデータを持つようになりました。大手プラットフォームはこれらのユーザーデータを用いてアルゴリズム推薦や信用ローンを行い商業価値を得ています。Redditはユーザー生成コンテンツをAIトレーニングデータとして販売し、2億ドルの収益を上げましたが、データを生成したユーザーはそのデータの価値や成果を受け取っていません。VANAの出現はデータの孤島を打破し、ユーザーがデータを持ち、データの利益を共有できるようにします。
VANAはオープンかつ分散型のデータ主権プロトコルであり、EVM互換のL1として、VANAはユーザーが自分のデータを所有し、個人データを寄与して人工知能による収益を共有できるようにします。
VANAはAIモデルのトレーニングデータの出所の問題を解決します。
広く知られているように、インターネットテクノロジー企業のAIモデルのトレーニングデータの主な出所は、クローラー、購入、自己事業の蓄積によるものです。クローラーによるデータの利点は簡単に取得できることですが、データの質は低く、クリーンアップが難しいです。購入したデータは同質化が深刻で、商業競争のため、本当に価値のあるビジネスデータソースは少なく、このデータはAIモデルに差別化の利点をもたらすことが難しいです。ビジネスシーンで蓄積されたデータは価値が高いですが、この方法はスタートアップの小規模企業に優しくありません。
VANAのデータはエコシステム内のユーザーの寄与から来ており、VANAエコシステムに参加するユーザーはDataDAOにX、LinkedInなどのソーシャルメディアやIoTデータを寄与します。これらのデータはすべて安全にオフチェーンに保存されます。データは検証、クリーンアップ、ラベリングされた後、AIモデルの開発に利用されます。参加したユーザーはデータを寄与した後、DataDAOのガバナンス権を獲得し、データの使用権を決定し、データが生み出す価値を共有します。
VANAモデルの利点
分散型のガバナンス方式を採用し、ユーザーがデータの所有権を持ち、自主的にデータの使用方法を決定できるようにします。
ユーザーはVANAを通じて取引可能なデータ資産に変換することができ、分散型人工知能のアプリケーションに使用されます。
ゼロ知識証明(ZKP)と信頼実行環境(TEE)を使用してデータのプライバシーとセキュリティを確保します。
VANAネットワーク構成
VANAの参加者は主にデータ寄与者(Data Contributors)、検証者(Validators)、ステーキング者、データ消費者(Data Consumers)、およびDLP(Data Liquidity Pool Creator)であり、すなわちDataDAOです。
1、データ寄与者
参加者はVANAネットワーク内に設立されたDataDAOに自分のデータを寄与することができ、提出されたデータはオフチェーンに保存され、オンチェーンには寄与の証明が保管されます。ChatGPT DataDAOの例を挙げると、ユーザーはメールを通じてOpenAIにChatGPTデータのエクスポートをリクエストし、メールの返答を受け取った後、データとダウンロードリンクをgptdatadao.org経由でアップロードします。
2、DataDAO
最低100ドル相当のVANAをステーキングすることでDataDAOを登録することができ、登録後、DataDAOはDataHubに表示され、データ寄与者が選択できるようになります。DataDAOの持続的な発展を促進するため、VANAはステーキングしたVANAデータのランキング上位16のDataDAOに報酬を提供します。最初の3年間のステーキング報酬はトークン総量の15%、21日ごとに報酬サイクルがあり、ステーキングの解除には7日かかります。VANAの報酬の数は、ステーキング量、ステーキング時間、DataDAOが受け取る報酬の量によって決まります。DataDAOは少なくとも10000VANAをステーキングする必要があります。報酬の50%は固定でステーキング者に帰属し、残りの報酬はDataDAOがその用途を決定します。
現在、17のDataDAOが登録されており、Twitter/Xデータに特化したVolara、RedditのR/DataDAO、LinkedInの履歴書データを扱うDLP Labsが含まれています。すでに14万人のRedditユーザーがR/DataDAOに参加しており、最初のユーザーが所有するAIモデルのトレーニングが完了しました。
3、検証者
検証者はVana Layer 1ブロックチェーンの安全性、完全性、機能を担当し、データ取引が正しく検証、記録されてブロックチェーンに追加されることを保証します。主にL1 ValidatorsとSatya Validatorsが含まれます。
L1 ValidatorsはVANAの安全性とコンセンサスを担当します。L1 Validatorsになるには最低35000VANAをステーキングする必要があり、初期のL1 Validatorsは64人で、その後128人に拡大します。各ブロックで5VANAを獲得し、ダウンタイムが発生すると10%の罰則が課せられ、報酬は毎年10%減少します。
Satya Validatorsは信頼実行環境(TEE)を提供し、ユーザーが寄与したデータを検証し、検証プロセスのデータの安全性とプライバシーを保証します。これによりVANA報酬を獲得します。
4、データ消費者
AIモデルの開発者はData Consumersとして、AIモデル開発ニーズに適したデータセットのアクセス権を選択し購入し、Vanaのインフラを使用してAIトレーニングやデータ分析を行い、DataDAOと協力してAIモデルを最適化します。
ChatGPT DataDAOを例にとると、ユーザーがアップロードするダウンロードリンクとデータファイルは、すべて暗号化された形でSatya Validatorsに送信されます。Satya Validatorsはデータを解読した後、検証を行い、ユーザーがアップロードしたデータの真実性を確認し、改ざんされていないことを保証します。
VANAトークンの応用シナリオおよび経済モデル
1、ValidatorsはVANAをステーキングしてネットワークの安全性を確保し、データを検証してVANA報酬を得ます。
2、VANAはネットワーク内で契約を実行し、DataDAOとインタラクションするなどのオンチェーン操作のGASとして機能します。
3、ユーザーはDataDAOでVANAをステーキングし、VANAステーキング報酬を得る。
4、データ消費者はデータにアクセスする際にデフォルトでVANAを使用します。
5、VANAホルダーはガバナンスに参加し、提案に投票し、VANAはDataDAOが発行するトークンの主要な取引ペアとなります。
VANAの総供給上限は1.2億個で、トークンの配分は下の図の通りです。
コミュニティ
主にDataDAOの高品質なデータ寄与の報酬、初期のユーザーへのエアドロップ、および開発者を含みます。TGEの供給は20.3%のVANAで、ロックアップ期間はありません。
エコシステム
主にDataDAOが発行するトークン、ブロック報酬、パートナーをサポートし、TGE供給は4.8%のVANAで、ロックアップされていません。
投資家
Vanaは現在、合計2500万ドルの資金調達を受けており、その中にはCoinbase Venturesの500万ドルの戦略的ラウンド、Paradigmの1800万ドルのAラウンド、Polychainの200万ドルのシードラウンドが含まれています。
コア開発チーム
以上から、TGE時のVANAの総流通量は3000万個であり、その中にはBinance Launchpoolの480万個のVANAが含まれています。
VANAモデルが中国に存在する法律リスク
VANAのこの分散型AIモデルデータプロジェクトは、AIモデルのトレーニングデータの問題をより低コストで解決し、AIモデルの起業家が高品質なトレーニングデータを持てるようにします。これにより、大手インターネット企業が作り出したデータの孤島を打破し、TencentがAlibabaのユーザーデータを取得してAIモデルをトレーニングするシナリオが可能になり、AIモデルの起業に取り組む個人や企業のハードルを下げますが、このモデルを中国で複製することにはデータの国外流出のリスクがあるかもしれません。
国家インターネット情報局が発表した(データ出境安全評価申告ガイドライン(第1版))では、データ出境行為には以下が含まれると明記されています。
(一)データ処理者は国内運営中に収集し生成したデータを国外に転送、保存する。
(二)データ処理者が収集し生成したデータが国内に保存され、国外の機関、組織または個人が照会、取得、ダウンロード、エクスポートできる。
(三)国家インターネット情報局が規定するその他のデータ出境行為。
(中華人民共和国出境入境管理法)第89条では、出境とは中国本土から他の国や地域、香港特別行政区、マカオ特別行政区、台湾地域に向かうことを指すと明確に規定されています。したがって、出境の判断は司法管轄区域に基づいています。
DataDAOの設立やユーザーのデータ寄与には制限がなく、データ消費者はKYCを行わず、VANAを支払うだけで収集されたデータにアクセスできます。この場合、国内ユーザーがさまざまなDataDAOに参加し、ソーシャルメディアや履歴書データを寄与することはデータの国外流出に関与する可能性があります。
個人データ情報の定義:中華人民共和国ネットワーク安全法第76条の規定により、個人情報は電子または他の方法で記録され、単独または他の情報と組み合わせて自然人の個人識別が可能なさまざまな情報を指し、これには自然人の名前、生年月日、ID番号、個人の生体識別情報、住所、電話番号などが含まれます。
DataDAOが収集した履歴書や医療健康データには、名前、生年月日、電話番号などの個人情報や、さらにはセンシティブな個人情報が含まれることがあります。(中華人民共和国個人情報保護法)これらのデータ情報の使用や越境には制限規定があります。