破除AI数据壁垒 数据DAO正当时

金色财经 · 2024-06-18T07:23:06.000Z

作者：Li Jin，Variant Fund合伙人；翻译：金色财经xiaozou 最近备受瞩目的数据授权交易（如OpenAI与News Corp和Reddit之间的交易）突显了人工智能（AI）对高质量数据的需求。前沿大模型已经在大部分互联网上进行了训练——例如，Common Crawl索引了大约10%的网页，用于LLM训练，包含超过100万亿枚代币。进一步改进人工智能模型的一个途径是扩展和增强它们可用于训练的数据。我们一直在讨论聚合数据的机制——特别是以一种去中心化的方式。我们尤为感兴趣的是探索去中心化方法如何帮助生成新的数据集，并为贡献者和创建者提供经济奖励。最近几年加密领域里的讨论话题之一就是数据DAO的概念，即创建、组织和管理数据的一群人。这个话题已经被Multicoin和其他人谈过了，但人工智能的快速发展催生了关于数据DAO的一个新的问题——“为什么现在正当时？” 本文，我们将分享我们对数据DAO的思考，以求回答这样一个问题：数据DAO如何加速人工智能的发展？ 1、AI领域的数据现状如今，人工智能模型是在公共数据上进行训练的，要么是通过News Corp和Reddit等合作来实现，要么是通过在开放的互联网上收集数据。例如，Meta的Llama 3是使用公开来源的15万亿代币进行训练的。这些方法在快速聚合大量数据方面是很有效的，但它们在收集哪类数据以及如何收集数据方面都有局限性。首先，应收集什么样的收据：人工智能的发展受到数据质量和数量的瓶颈。Leopold Aschenbrenner曾写过限制算法进一步改进的“数据墙”相关内容：“很快，在更多的抓取数据上预训练更大的语言模型的朴素做法可能会开始遭遇严重的瓶颈。” 推倒数据墙的一种方法是开启新数据集的可用性。例如，模型公司无法在不违反大多数网站服务条款的情况下抓取登录数据，而且根据定义，它们无法访问尚未收集的数据。目前还有大量的私人数据是人工智能训练无法获取的：比如Google Drive和Slacks等公司、个人健康数据或私人信息。其次，如何收集收据：在现有的模式下，数据收集公司获取了大部分价值。Reddit的S-1将数据授权作为主要的预期收入源：“我们预计，我们不断增长的数据优势和知识产权将继续成为未来LLM训练的关键要素。”生成实际内容的最终用户并没有从这些授权协议或人工智能模型本身获得任何经济利益。这种错位可能会扼杀参与积极性——已经有起诉生成式人工智能公司或选择退出训练数据集的运动。更不用说将收入集中在模型公司或平台的手中而不分给最终用户分毫所带来的社会经济影响。 2、数据DAO效应上述数据问题有一个共同的主线：它们受益于来自不同的、有代表性的用户样本的大量贡献。任何单个数据点对模型性能的价值可能都可以忽略不计，但总体来看，一大群用户可以聚集对人工智能训练有价值的新的数据集。这就是数据DAO概念的用武之地。有了数据DAO，数据贡献者可以通过提供数据收获经济好处，并可管理数据的使用方式和货币化方式。数据DAO可以在当前数据领域里的哪些方面做出贡献？下面是一些想法——请注意，这并非一个详尽列表，数据DAO肯定还有其他的机会：（1）现实世界数据在去中心化物理基础设施（DEPIN）领域，Hivemapper等网络旨在收集全世界最新的全球地图数据，方法是通过激励行车记录仪的所有者贡献他们的数据，以及激励用户通过他们的应用程序贡献数据（例如关于道路封闭或维修的数据）。可以将DEPIN视为现实世界的数据DAO，其中数据集是从硬件设备和/或用户网络生成的。这些数据对许多公司都有商业价值，收入将以代币奖励的形式回馈给贡献者。（2）个人健康资料生物黑客是一项社会运动，指的是个人和社区采取DIY的方法来研究生物学，通常是拿自己来做实验。例如，一个人可能会服用不同的益智药物来提高大脑的表现，或者测试不同的治疗方法或环境变化来改善睡眠，甚至还有人给自己注射实验性药物。数据DAO可以通过组织参与者围绕共同的实验和系统地收集结果，为这些生物黑客的努力带来激励。这些个人健康DAO获得的收入，例如来自研究实验室或制药公司的收入，可以回到以自己的个人健康数据形式贡献结果的参与者。（3）用人类反馈强化学习使用RLHF（使用人类反馈强化学习）微调人工智能模型涉及到利用人类输入来提高人工智能系统的性能。通常，人们期待反馈者都是他们各自领域的专家，他们可以有效地评估模型的输出。例如，实验室可能会寻求数学博士的帮助来提高他们的LLM的数学能力，等等。代币奖励可以通过其投机优势在寻找和激励专家参与方面发挥作用，更不用说使用加密支付轨道所提供的全球访问权了。Sapien、Fraction和Sahara等公司都正在这一领域开展工作。（4）私人数据随着可供人工智能训练使用的公开数据越来越少，竞争的基础可能会转向专有数据集，包括私人用户数据。登录墙后面有大量高质量的数据仍然无法访问，例如私信、私人文件等。这些数据不仅可以有效地训练个人AI，而且还包含了在公共网络上无法访问的有价值的信息。然而，访问和利用这些数据在法律和道德上都面临着重大挑战。数据DAO可以提供一种解决方案，允许有意愿的参与者上传和变现他们的数据，并可管理数据的使用方式。例如，Reddit数据DAO允许用户上传他们从Reddit平台导出的Reddit数据，其中包含评论、帖子和投票历史，这些数据可以以隐私保护的方式出售或出租给人工智能公司。代币激励让用户不仅可以通过一次性交易赚取收益，还可以基于使用其数据训练的人工智能模型所创造的价值大小赚取收益。 3、开放问题与挑战虽然数据DAO的潜在好处是巨大的，但也存在一些考量和挑战。（1）激励的扭曲影响从Crypto使用代币激励的历史中可以看到一点，那就是外部激励会改变用户行为。这对利用代币激励来实现数据目的有直接影响：激励可能会扭曲参与者群体和其所贡献的数据类型。代币激励的引入也引入了参与者寻求系统漏洞的可能性，例如提交低质量或捏造数据来让他们的收入最大化。这很重要，因为这些数据DAO的收益机会取决于数据质量。如果贡献偏离目标，就会破坏数据集的价值。（2）数据测量和奖励数据DAO的核心思想是，通过代币激励来奖励贡献者的数据提交，从长远来看，这将成为DAO所获得的收入。然而，考虑到数据价值的主观性，确切地知道应该对各种数据贡献给予多少奖励是极具挑战性的。在上面关于生物黑客的例子中，例如：某些用户的数据比其他用户的数据更有价值吗？如果是，决定因素有哪些？对于地图数据来说：某些地区的地图信息是否比其他地区更有价值？这种差异如何量化？（通过计算数据对模型性能的增量贡献来衡量人工智能中的数据价值这方面的研究非常活跃，但这种方法可能需要大量的计算。）另外，建立健全的机制来验证数据的真实性和准确性至关重要。如果没有这些措施，系统可能容易面临欺诈性数据提交（例如创建虚假账户）或Sybil攻击。DEPIN网络试图通过在硬件设备级别进行集成来解决这个问题，但是依赖于用户贡献的其他类型的数据DAO可能容易受到操纵。（3）新数据递增量大多数开放网络已经被用作训练目的，因此数据DAO操作员必须考虑，通过分布式方式收集的数据集是否真的是开放网络上现有数据的增量和附加，以及研究人员是否可以从平台上获得这些数据或通过其他方式获取这些数据。上述想法强调了收集全新数据的重要性，这些数据超越了现有的数据，导致了接下来的考量：影响大小和收益机会。（4）评估收益机会从本质上讲，数据DAO正在构建一个双边市场，将数据买家和数据贡献者联系起来。因此，数据DAO的成功取决于能否吸引稳定且多样化的、愿意为数据付费的客户群。数据DAO需要识别和验证其最终需求，并确保收益机会足够大（无论是基于总量还是基于单个贡献者），以激励所需数据的数量和质量。例如，创建一个用户数据DAO来汇集个人偏好以及出于广告目的浏览数据的想法已经讨论了好几年了，但最终，这样一个网络能够传递给用户的收益可能微乎其微。（作为对比参考，Meta在2023年底的全球ARPU为13.12美元。）随着人工智能公司计划在训练方面投入数万亿美元，分给每个用户的数据收益可能足以吸引大规模贡献，这就给数据DAO提出了一个有趣的问题：“为什么是现在？” 4、攻克数据墙数据DAO代表了一种潜在的光明前景，可以生成新的高质量数据集，并攻克人工智能领域里的数据墙。具体如何实现还有待观察，但我们很高兴看到这个领域的发展。

作者：Li Jin，Variant Fund合夥人；翻譯：金色財經xiaozou
最近備受矚目的數據授權交易（如OpenAI與News Corp和Reddit之間的交易）突顯了人工智能（AI）對高質量數據的需求。前沿大模型已經在大部分互聯網上進行了訓練——例如，Common Crawl索引了大約10%的網頁，用於LLM訓練，包含超過100萬億枚代幣。
進一步改進人工智能模型的一個途徑是擴展和增強它們可用於訓練的數據。我們一直在討論聚合數據的機制——特別是以一種去中心化的方式。我們尤爲感興趣的是探索去中心化方法如何幫助生成新的數據集，併爲貢獻者和創建者提供經濟獎勵。
最近幾年加密領域裏的討論話題之一就是數據DAO的概念，即創建、組織和管理數據的一羣人。這個話題已經被Multicoin和其他人談過了，但人工智能的快速發展催生了關於數據DAO的一個新的問題——“爲什麼現在正當時？”
本文，我們將分享我們對數據DAO的思考，以求回答這樣一個問題：數據DAO如何加速人工智能的發展？
1、AI領域的數據現狀
如今，人工智能模型是在公共數據上進行訓練的，要麼是通過News Corp和Reddit等合作來實現，要麼是通過在開放的互聯網上收集數據。例如，Meta的Llama 3是使用公開來源的15萬億代幣進行訓練的。這些方法在快速聚合大量數據方面是很有效的，但它們在收集哪類數據以及如何收集數據方面都有侷限性。
首先，應收集什麼樣的收據：人工智能的發展受到數據質量和數量的瓶頸。Leopold Aschenbrenner曾寫過限制算法進一步改進的“數據牆”相關內容：“很快，在更多的抓取數據上預訓練更大的語言模型的樸素做法可能會開始遭遇嚴重的瓶頸。”
推倒數據牆的一種方法是開啓新數據集的可用性。例如，模型公司無法在不違反大多數網站服務條款的情況下抓取登錄數據，而且根據定義，它們無法訪問尚未收集的數據。目前還有大量的私人數據是人工智能訓練無法獲取的：比如Google Drive和Slacks等公司、個人健康數據或私人信息。
其次，如何收集收據：在現有的模式下，數據收集公司獲取了大部分價值。Reddit的S-1將數據授權作爲主要的預期收入源：“我們預計，我們不斷增長的數據優勢和知識產權將繼續成爲未來LLM訓練的關鍵要素。”生成實際內容的最終用戶並沒有從這些授權協議或人工智能模型本身獲得任何經濟利益。這種錯位可能會扼殺參與積極性——已經有起訴生成式人工智能公司或選擇退出訓練數據集的運動。更不用說將收入集中在模型公司或平臺的手中而不分給最終用戶分毫所帶來的社會經濟影響。
2、數據DAO效應
上述數據問題有一個共同的主線：它們受益於來自不同的、有代表性的用戶樣本的大量貢獻。任何單個數據點對模型性能的價值可能都可以忽略不計，但總體來看，一大羣用戶可以聚集對人工智能訓練有價值的新的數據集。這就是數據DAO概念的用武之地。有了數據DAO，數據貢獻者可以通過提供數據收穫經濟好處，並可管理數據的使用方式和貨幣化方式。
數據DAO可以在當前數據領域裏的哪些方面做出貢獻？下面是一些想法——請注意，這並非一個詳盡列表，數據DAO肯定還有其他的機會：
（1）現實世界數據
在去中心化物理基礎設施（DEPIN）領域，Hivemapper等網絡旨在收集全世界最新的全球地圖數據，方法是通過激勵行車記錄儀的所有者貢獻他們的數據，以及激勵用戶通過他們的應用程序貢獻數據（例如關於道路封閉或維修的數據）。可以將DEPIN視爲現實世界的數據DAO，其中數據集是從硬件設備和/或用戶網絡生成的。這些數據對許多公司都有商業價值，收入將以代幣獎勵的形式回饋給貢獻者。
（2）個人健康資料
生物黑客是一項社會運動，指的是個人和社區採取DIY的方法來研究生物學，通常是拿自己來做實驗。例如，一個人可能會服用不同的益智藥物來提高大腦的表現，或者測試不同的治療方法或環境變化來改善睡眠，甚至還有人給自己注射實驗性藥物。
數據DAO可以通過組織參與者圍繞共同的實驗和系統地收集結果，爲這些生物黑客的努力帶來激勵。這些個人健康DAO獲得的收入，例如來自研究實驗室或製藥公司的收入，可以回到以自己的個人健康數據形式貢獻結果的參與者。
（3）用人類反饋強化學習
使用RLHF（使用人類反饋強化學習）微調人工智能模型涉及到利用人類輸入來提高人工智能系統的性能。通常，人們期待反饋者都是他們各自領域的專家，他們可以有效地評估模型的輸出。例如，實驗室可能會尋求數學博士的幫助來提高他們的LLM的數學能力，等等。代幣獎勵可以通過其投機優勢在尋找和激勵專家參與方面發揮作用，更不用說使用加密支付軌道所提供的全球訪問權了。Sapien、Fraction和Sahara等公司都正在這一領域開展工作。
（4）私人數據
隨着可供人工智能訓練使用的公開數據越來越少，競爭的基礎可能會轉向專有數據集，包括私人用戶數據。登錄牆後面有大量高質量的數據仍然無法訪問，例如私信、私人文件等。這些數據不僅可以有效地訓練個人AI，而且還包含了在公共網絡上無法訪問的有價值的信息。
然而，訪問和利用這些數據在法律和道德上都面臨着重大挑戰。數據DAO可以提供一種解決方案，允許有意願的參與者上傳和變現他們的數據，並可管理數據的使用方式。例如，Reddit數據DAO允許用戶上傳他們從Reddit平臺導出的Reddit數據，其中包含評論、帖子和投票歷史，這些數據可以以隱私保護的方式出售或出租給人工智能公司。代幣激勵讓用戶不僅可以通過一次性交易賺取收益，還可以基於使用其數據訓練的人工智能模型所創造的價值大小賺取收益。
3、開放問題與挑戰
雖然數據DAO的潛在好處是巨大的，但也存在一些考量和挑戰。
（1）激勵的扭曲影響
從Crypto使用代幣激勵的歷史中可以看到一點，那就是外部激勵會改變用戶行爲。這對利用代幣激勵來實現數據目的有直接影響：激勵可能會扭曲參與者羣體和其所貢獻的數據類型。
代幣激勵的引入也引入了參與者尋求系統漏洞的可能性，例如提交低質量或捏造數據來讓他們的收入最大化。這很重要，因爲這些數據DAO的收益機會取決於數據質量。如果貢獻偏離目標，就會破壞數據集的價值。
（2）數據測量和獎勵
數據DAO的核心思想是，通過代幣激勵來獎勵貢獻者的數據提交，從長遠來看，這將成爲DAO所獲得的收入。然而，考慮到數據價值的主觀性，確切地知道應該對各種數據貢獻給予多少獎勵是極具挑戰性的。在上面關於生物黑客的例子中，例如：某些用戶的數據比其他用戶的數據更有價值嗎？如果是，決定因素有哪些？對於地圖數據來說：某些地區的地圖信息是否比其他地區更有價值？這種差異如何量化？（通過計算數據對模型性能的增量貢獻來衡量人工智能中的數據價值這方面的研究非常活躍，但這種方法可能需要大量的計算。）
另外，建立健全的機制來驗證數據的真實性和準確性至關重要。如果沒有這些措施，系統可能容易面臨欺詐性數據提交（例如創建虛假賬戶）或Sybil攻擊。DEPIN網絡試圖通過在硬件設備級別進行集成來解決這個問題，但是依賴於用戶貢獻的其他類型的數據DAO可能容易受到操縱。
（3）新數據遞增量
大多數開放網絡已經被用作訓練目的，因此數據DAO操作員必須考慮，通過分佈式方式收集的數據集是否真的是開放網絡上現有數據的增量和附加，以及研究人員是否可以從平臺上獲得這些數據或通過其他方式獲取這些數據。上述想法強調了收集全新數據的重要性，這些數據超越了現有的數據，導致了接下來的考量：影響大小和收益機會。
（4）評估收益機會
從本質上講，數據DAO正在構建一個雙邊市場，將數據買家和數據貢獻者聯繫起來。因此，數據DAO的成功取決於能否吸引穩定且多樣化的、願意爲數據付費的客戶羣。
數據DAO需要識別和驗證其最終需求，並確保收益機會足夠大（無論是基於總量還是基於單個貢獻者），以激勵所需數據的數量和質量。例如，創建一個用戶數據DAO來彙集個人偏好以及出於廣告目的瀏覽數據的想法已經討論了好幾年了，但最終，這樣一個網絡能夠傳遞給用戶的收益可能微乎其微。（作爲對比參考，Meta在2023年底的全球ARPU爲13.12美元。）隨着人工智能公司計劃在訓練方面投入數萬億美元，分給每個用戶的數據收益可能足以吸引大規模貢獻，這就給數據DAO提出了一個有趣的問題：“爲什麼是現在？”
4、攻克數據牆
數據DAO代表了一種潛在的光明前景，可以生成新的高質量數據集，並攻克人工智能領域裏的數據牆。具體如何實現還有待觀察，但我們很高興看到這個領域的發展。

創作者的更多內容

實時新聞

創作者的更多內容

實時新聞

熱門文章