Reddit データ DAO と Gen AI モデルトレーニングについて知っておくべきことすべて

Cryptonomist は、Reddit Data DAO である Vana の CEO 兼共同創設者である Anna Kazlauskas 氏にインタビューしました。Vana の Reddit Data DAO は、最初の 1 週間で 14 万人のユーザーが認証済みの Reddit アカウントでサインアップしました。Anna 氏は現在、開発者と協力して、LinkedIn や ChatGPT などの他のプラットフォーム向けの Data DAO を構築しています。
DAO に加えて、ユーザーがデータをデータセットにプールし、ポートレートやアバターの作成など、GenAI モデルのトレーニングに使用できる他のアウトレットもあります。
Vana の活動以外にも、プラットフォームが人々が新しいアプリケーションのためにデータを活用し、収益化することを支援するため、Anna と分散型 AI 分野の成長について話し合いました。
Vana の概要と、分散型 AI 分野におけるその使命について教えていただけますか?
Vana は、ユーザーが所有するデータを利用したユーザー所有の AI プラットフォームです。私たちの使命は、ユーザーが自分のデータと、AI モデルを通じて生み出される価値を所有できるようにすることです。AI モデルのパフォーマンスを向上させるには、より多くのトレーニング データの必要性が高まっています。AI モデルの良し悪しは、最終的にはデータ次第だからです。
たとえば、LLaMA 3 は約 15 兆語でトレーニングされていますが、これはインターネット上で利用可能なデータ量とほぼ同じです。企業は現在、より多くのデータを取得しようとしており、そのために数億ドルを支払うこともあります。主要なテクノロジー プラットフォームは貴重なユーザー データを蓄積し、ユーザーの許可を考慮せずに新しいテクノロジーを構築しているため、イノベーションが妨げられています。
Vana では、データをユーザーの管理下に置くことで、こうしたウォールド ガーデンからデータを解放しています。ユーザーが AI モデルに直接貢献し、データの使用方法や AI の使用方法を選択できるようにしています。最高のデータにアクセスできれば、実際に主要なモデルを上回るパフォーマンスを発揮できると考えています。ユーザーから直接入手できるデータにアクセスすることで、GPT-6 などのモデルのパフォーマンスを上回ることができます。Vana は、ユーザー所有のプライベート データ用にゼロから設計されたレイヤー 1 ブロックチェーンとして設計されています。
Reddit Data DAO では、最初の 1 週間で 14 万人のユーザーが登録しました。この急速な普及の原動力は何だったと思いますか。また、このローンチからどのような教訓を得ましたか。
Reddit Data DAO は採用の観点からは驚異的な成功を収め、最初の 1 週間で 14 万人を超えるユーザーが登録しました。このレベルの採用は DAO としては異例であり、現在では史上最大のデータ DAO となっています。
急速な普及を促した要因の 1 つは、データ販売に関する報道を通じてユーザーがデータの価値をますます認識するようになり、ストーリーの大部分がすでに展開されていたことです。Reddit がデータを 2 億ドルで販売していることや、Apple がデータを 5,000 万ドルで購入していることに気づけば、その価値に対する認識がはるかに高まります。
また、Web3 で構築され、おなじみの DeFi 製品を超えて所有権の新たな領域へと進むユーザー所有の製品に対する強い需要もあります。この傾向は、ユーザー所有製品の新しい波を代表する Farcaster、DePIN ネットワーク、Vana 上に構築されたデータ DAO などのプロジェクトで見られます。
重要な教訓の 1 つは、貢献の証明要件の必要性です。100 万人を超える人々が Reddit Data DAO に参加しようとしましたが、一定期間存在し、最低限のデータ量を持つ Reddit アカウントを持つという基準を満たしていない人が多数いました。これは、質の高い貢献を保証するメカニズムを持つことの重要性を浮き彫りにしています。
LinkedIn や Chat GPT などのプラットフォーム向けにデータ DAO を作成する計画があるとおっしゃっていましたが、これらのプラットフォームに拡大する上で、どのような特有の課題や機会があると思いますか?
Vana はユーザー所有のデータのためのピアツーピア ネットワークであり、開発者は Reddit Data DAO、LinkedIn Data DAO、ChatGPT Data DAO など、さまざまなデータ DAO を作成しました。
これらのさまざまなデータ ソースは AI モデルのトレーニングに非常に役立ちますが、現在はウォールド ガーデンに閉じ込められています。これらの各プラットフォームからデータを取得するのは難しい場合がありますが、データ規制により常に可能です。
Vana はどのようにしてユーザーにデータを収益化する機会を与えているのでしょうか。また、ユーザーがこれによってどのような恩恵を受けているかの例にはどのようなものがありますか。
私たちの目標は、ユーザーが収益を上げながら同時にデータを保護できるように支援することです。たとえば、Reddit Data DAO では現在、ユーザー所有のモデルをトレーニングしています (現段階では主に shitposting に重点を置いていますが、これは始まりです)。モデルが使用されるたびにユーザーに報酬が支払われるため、モデルの共同所有に対する経済的インセンティブが生まれます。
また、ユーザーデータは完全にプライベートに保たれます。データを販売するのではなく、データは「レンタル」されるだけであり、基礎となるデータは安全な環境から外に出ることはありません。
データプライバシーに関する懸念が高まる中、Vana はどのようにしてユーザーデータがデータ DAO 内で安全かつ倫理的に使用されることを保証するのでしょうか?
データプライバシーは、単なるイデオロギーや好みの問題から経済的な問題へと変化しました。誰かがあなたのデータを入手した場合、経済的に価値のあるあなたの AI バージョンを作成し、収益を上げ、あなたと競合する可能性があります。だからこそ、プライバシーは非常に重要であり、Vana にとって中核的なのです。
私たちは「非管理データ」という概念を発明しました。これは、非管理ウォレットに似ていますが、個人データ用です。これは、秘密鍵によって許可された、ユーザーの完全な管理下に置かれます。これにより、データをアプリケーション間で移植できるようになり、その上にネイティブの金融レイヤーが追加され、データ DAO などを構築できるようになります。
Vana のデータ DAO を通じて作成されたデータセットは、生成 AI モデルのトレーニングをどのように強化しますか。また、従来のデータセットに比べてどのような利点がありますか。
通常、AI モデルは、パブリック インターネットから収集されたデータ (ログインしなくても利用できるデータ) を使用してトレーニングされます。しかし、子供に世界について教えるという観点から考えると、パブリック インターネットをランダムにさまよわせたくはないでしょう。高品質の文章、思考プロセス、メッセージなど、一般に公開されていない可能性のある高品質の情報を子供に提供したいはずです。AI は主にパブリック データでトレーニングされますが、限界を押し広げるにはプライベート データが必要です。これがデータ DAO によって可能になるものです。つまり、ユーザーがプライベート データを提供してユーザー所有の AI を作成するのです。
私たちは、AI はオープンソース ソフトウェアのようにコミュニティによって作成されるべきだと考えています。私たちの目標は、研究者が現在壁に囲まれた庭園内に閉じ込められている最高のデータセットにアクセスできるようにし、AI パフォーマンスの限界を押し広げることです。
今後 5 ～ 10 年間の分散型 AI 分野ではどのようなトレンドが予測されますか。また、Vana はこの進化する分野でどのようにリードしていく予定ですか。
分散型 AI 分野は、過去 1 年間で本当に加速しました。たとえば、今年の EthCC では、昨年はまったくなかった分散型 AI イベントがほぼ毎日開催されました。人々は、金融でうまく機能している主権技術を AI 分野に適用する方法を模索しています。Vana では、これらすべての中核となる基盤はデータであると考えています。ユーザー所有の AI と主権 AI を構築するには、ユーザー所有のデータが必要なので、私たちはそのデータに重点​​を置いています。
今後 5 ～ 10 年で、私はいくつかのマイルストーンに期待しています。1) 1 億人が共同で所有するユーザー所有の基盤モデル。2) 自力で収益を上げることができる自律型 AI エージェントが増え、それらのエージェントがトレーニングに貢献したユーザーによって本当に所有されることを保証すること。
AIがますます重要な経済的役割を果たすようになるにつれて、技術的および社会的観点からその力が広く分散されることが保証されます。
データ DAO を構築するための開発者とのコラボレーションについて詳しく教えていただけますか? 現在進行中の革新的なプロジェクトにはどのようなものがありますか?
Vana はパーミッションレス ネットワークなので、誰でもデータ DAO を構築できます。これは、プライベートなユーザー所有データ用にゼロから設計されたレイヤー 1 ブロックチェーンです。現在、Satori テストネットには 100 を超えるデータ DAO がデプロイされています。ビルダーの多くは、暗号と AI の交差点を深く理解している Bittensor エコシステムの初期参加者です。注目すべきプロジェクトには、Twitter Data DAO、LinkedIn Data DAO、GitHub Data DAO などがあります。また、ZK 分野や DAO ツール分野のプロジェクトと提携して、データ DAO の作成と管理をさらに容易にしています。
分散型 AI の開発において最も緊急に考慮すべき倫理的事項は何ですか? また、Vana はこれらの問題にどのように対処していますか?
今日の AI における最大の疑問の 1 つは、モデルを誰が所有し、どのようなデータをモデルに入れるかを決めるべきかということだと思います。私たちが情報に関して AI にますます依存するようになると、AI は真実の源になります。AI に何を入れるかを決める人が、本質的には真実を決めることになります。これを単一の組織が管理するのは恐ろしいことです。Vana の見解は、単一の企業ではなくコミュニティがこれらの決定を下すべきだということです。
分散型 AI で生じるもう 1 つの疑問は、AI が完全に分散化されている場合、AI が暴走してオフボタンがない場合はどうなるかということです。Vana では、この問題に対して、AI モデルは最終的にはそれに貢献したユーザーによって所有されるため、ユーザーが常に完全な制御を維持できるというアプローチをとっています。
Vana と Data DAO での経験に基づいて、分散型 AI 分野への参入を目指す起業家志望者にどのようなアドバイスをしますか?
今は分散型 AI 分野で構築を始める絶好の機会です。DeFi でうまく機能した暗号経済プリミティブのいくつかを、分散型データと AI という新興の分野に適用する機会がたくさんあります。また、暗号以外のオープンソース AI 分野に少し時間を費やして、暗号以外のコンテキストで人々が取っているアプローチについて学ぶこともお勧めします。Vana でデータ DAO を開始してみることを含め、既存のプロジェクトのいくつかに実際に飛び込んで、どのようなプリミティブを使用して構築できるかを確認します。
クリエイターからの情報をさらに見る

最新ニュース