作者:Li Jin,Variant Fund合夥人;翻譯:金色財經xiaozou

最近備受矚目的數據授權交易(如OpenAI與News Corp和Reddit之間的交易)突顯了人工智能(AI)對高質量數據的需求。前沿大模型已經在大部分互聯網上進行了訓練——例如,Common Crawl索引了大約10%的網頁,用於LLM訓練,包含超過100萬億枚代幣。

進一步改進人工智能模型的一個途徑是擴展和增強它們可用於訓練的數據。我們一直在討論聚合數據的機制——特別是以一種去中心化的方式。我們尤爲感興趣的是探索去中心化方法如何幫助生成新的數據集,併爲貢獻者和創建者提供經濟獎勵。

最近幾年加密領域裏的討論話題之一就是數據DAO的概念,即創建、組織和管理數據的一羣人。這個話題已經被Multicoin和其他人談過了,但人工智能的快速發展催生了關於數據DAO的一個新的問題——“爲什麼現在正當時?”

本文,我們將分享我們對數據DAO的思考,以求回答這樣一個問題:數據DAO如何加速人工智能的發展?

1、AI領域的數據現狀

如今,人工智能模型是在公共數據上進行訓練的,要麼是通過News Corp和Reddit等合作來實現,要麼是通過在開放的互聯網上收集數據。例如,Meta的Llama 3是使用公開來源的15萬億代幣進行訓練的。這些方法在快速聚合大量數據方面是很有效的,但它們在收集哪類數據以及如何收集數據方面都有侷限性。

首先,應收集什麼樣的收據:人工智能的發展受到數據質量和數量的瓶頸。Leopold Aschenbrenner曾寫過限制算法進一步改進的“數據牆”相關內容:“很快,在更多的抓取數據上預訓練更大的語言模型的樸素做法可能會開始遭遇嚴重的瓶頸。”

推倒數據牆的一種方法是開啓新數據集的可用性。例如,模型公司無法在不違反大多數網站服務條款的情況下抓取登錄數據,而且根據定義,它們無法訪問尚未收集的數據。目前還有大量的私人數據是人工智能訓練無法獲取的:比如Google Drive和Slacks等公司、個人健康數據或私人信息。

其次,如何收集收據:在現有的模式下,數據收集公司獲取了大部分價值。Reddit的S-1將數據授權作爲主要的預期收入源:“我們預計,我們不斷增長的數據優勢和知識產權將繼續成爲未來LLM訓練的關鍵要素。”生成實際內容的最終用戶並沒有從這些授權協議或人工智能模型本身獲得任何經濟利益。這種錯位可能會扼殺參與積極性——已經有起訴生成式人工智能公司或選擇退出訓練數據集的運動。更不用說將收入集中在模型公司或平臺的手中而不分給最終用戶分毫所帶來的社會經濟影響。

2、數據DAO效應

上述數據問題有一個共同的主線:它們受益於來自不同的、有代表性的用戶樣本的大量貢獻。任何單個數據點對模型性能的價值可能都可以忽略不計,但總體來看,一大羣用戶可以聚集對人工智能訓練有價值的新的數據集。這就是數據DAO概念的用武之地。有了數據DAO,數據貢獻者可以通過提供數據收穫經濟好處,並可管理數據的使用方式和貨幣化方式。

數據DAO可以在當前數據領域裏的哪些方面做出貢獻?下面是一些想法——請注意,這並非一個詳盡列表,數據DAO肯定還有其他的機會:

(1)現實世界數據

在去中心化物理基礎設施(DEPIN)領域,Hivemapper等網絡旨在收集全世界最新的全球地圖數據,方法是通過激勵行車記錄儀的所有者貢獻他們的數據,以及激勵用戶通過他們的應用程序貢獻數據(例如關於道路封閉或維修的數據)。可以將DEPIN視爲現實世界的數據DAO,其中數據集是從硬件設備和/或用戶網絡生成的。這些數據對許多公司都有商業價值,收入將以代幣獎勵的形式回饋給貢獻者。

(2)個人健康資料

生物黑客是一項社會運動,指的是個人和社區採取DIY的方法來研究生物學,通常是拿自己來做實驗。例如,一個人可能會服用不同的益智藥物來提高大腦的表現,或者測試不同的治療方法或環境變化來改善睡眠,甚至還有人給自己注射實驗性藥物。

數據DAO可以通過組織參與者圍繞共同的實驗和系統地收集結果,爲這些生物黑客的努力帶來激勵。這些個人健康DAO獲得的收入,例如來自研究實驗室或製藥公司的收入,可以回到以自己的個人健康數據形式貢獻結果的參與者。

(3)用人類反饋強化學習

使用RLHF(使用人類反饋強化學習)微調人工智能模型涉及到利用人類輸入來提高人工智能系統的性能。通常,人們期待反饋者都是他們各自領域的專家,他們可以有效地評估模型的輸出。例如,實驗室可能會尋求數學博士的幫助來提高他們的LLM的數學能力,等等。代幣獎勵可以通過其投機優勢在尋找和激勵專家參與方面發揮作用,更不用說使用加密支付軌道所提供的全球訪問權了。Sapien、Fraction和Sahara等公司都正在這一領域開展工作。

(4)私人數據

隨着可供人工智能訓練使用的公開數據越來越少,競爭的基礎可能會轉向專有數據集,包括私人用戶數據。登錄牆後面有大量高質量的數據仍然無法訪問,例如私信、私人文件等。這些數據不僅可以有效地訓練個人AI,而且還包含了在公共網絡上無法訪問的有價值的信息。

然而,訪問和利用這些數據在法律和道德上都面臨着重大挑戰。數據DAO可以提供一種解決方案,允許有意願的參與者上傳和變現他們的數據,並可管理數據的使用方式。例如,Reddit數據DAO允許用戶上傳他們從Reddit平臺導出的Reddit數據,其中包含評論、帖子和投票歷史,這些數據可以以隱私保護的方式出售或出租給人工智能公司。代幣激勵讓用戶不僅可以通過一次性交易賺取收益,還可以基於使用其數據訓練的人工智能模型所創造的價值大小賺取收益。

3、開放問題與挑戰

雖然數據DAO的潛在好處是巨大的,但也存在一些考量和挑戰。

(1)激勵的扭曲影響

從Crypto使用代幣激勵的歷史中可以看到一點,那就是外部激勵會改變用戶行爲。這對利用代幣激勵來實現數據目的有直接影響:激勵可能會扭曲參與者羣體和其所貢獻的數據類型。

代幣激勵的引入也引入了參與者尋求系統漏洞的可能性,例如提交低質量或捏造數據來讓他們的收入最大化。這很重要,因爲這些數據DAO的收益機會取決於數據質量。如果貢獻偏離目標,就會破壞數據集的價值。

(2)數據測量和獎勵

數據DAO的核心思想是,通過代幣激勵來獎勵貢獻者的數據提交,從長遠來看,這將成爲DAO所獲得的收入。然而,考慮到數據價值的主觀性,確切地知道應該對各種數據貢獻給予多少獎勵是極具挑戰性的。在上面關於生物黑客的例子中,例如:某些用戶的數據比其他用戶的數據更有價值嗎?如果是,決定因素有哪些?對於地圖數據來說:某些地區的地圖信息是否比其他地區更有價值?這種差異如何量化?(通過計算數據對模型性能的增量貢獻來衡量人工智能中的數據價值這方面的研究非常活躍,但這種方法可能需要大量的計算。)

另外,建立健全的機制來驗證數據的真實性和準確性至關重要。如果沒有這些措施,系統可能容易面臨欺詐性數據提交(例如創建虛假賬戶)或Sybil攻擊。DEPIN網絡試圖通過在硬件設備級別進行集成來解決這個問題,但是依賴於用戶貢獻的其他類型的數據DAO可能容易受到操縱。

(3)新數據遞增量

大多數開放網絡已經被用作訓練目的,因此數據DAO操作員必須考慮,通過分佈式方式收集的數據集是否真的是開放網絡上現有數據的增量和附加,以及研究人員是否可以從平臺上獲得這些數據或通過其他方式獲取這些數據。上述想法強調了收集全新數據的重要性,這些數據超越了現有的數據,導致了接下來的考量:影響大小和收益機會。

(4)評估收益機會

從本質上講,數據DAO正在構建一個雙邊市場,將數據買家和數據貢獻者聯繫起來。因此,數據DAO的成功取決於能否吸引穩定且多樣化的、願意爲數據付費的客戶羣。

數據DAO需要識別和驗證其最終需求,並確保收益機會足夠大(無論是基於總量還是基於單個貢獻者),以激勵所需數據的數量和質量。例如,創建一個用戶數據DAO來彙集個人偏好以及出於廣告目的瀏覽數據的想法已經討論了好幾年了,但最終,這樣一個網絡能夠傳遞給用戶的收益可能微乎其微。(作爲對比參考,Meta在2023年底的全球ARPU爲13.12美元。)隨着人工智能公司計劃在訓練方面投入數萬億美元,分給每個用戶的數據收益可能足以吸引大規模貢獻,這就給數據DAO提出了一個有趣的問題:“爲什麼是現在?”

4、攻克數據牆

數據DAO代表了一種潛在的光明前景,可以生成新的高質量數據集,並攻克人工智能領域裏的數據牆。具體如何實現還有待觀察,但我們很高興看到這個領域的發展。