“YOUR DATA IS CURRENCY. COLLECTIVE DATA IS POWER. ”(你的數據就是金錢。集體數據就是力量。)Reddit Data DAO(r/datadao)公司在官網滾動播放這一響亮的口號。

r/datadao是一個數據去中心化組織,允許用戶將Reddit 數據提供給平臺 - 用戶投票決定如何使用數據,如授權給AI公司用於大模型訓練,並從中獲得獎勵。r/datadao奪回用戶數據權益的敘事無疑激動人心,因爲它擊中了目前數據行業的痛點:個人信息權益和行業需求之間難以平衡。

數據成爲石油,但似乎和用戶沒什麼關係

近年生成式人工智能應用的橫空出世,讓數據的價值越發凸顯。大數據、大算力、強算法被稱爲大模型的三駕馬車。2023世界人工智能大會(WAIC)上,《人工智能十大趨勢》報告指出“未來一個模型的好壞,20%由算法決定,80%由數據質量決定”。

Garbage in, Garbage out(垃圾進,垃圾出)。數據因此被稱爲新的石油。

2018年到2022年初從GPT-1到Gopher的精選語言模型的所有數據集的綜合視圖。未加權大小,以GB爲單位。圖源:Alan D. Thompson

然而,大模型對數據的旺盛需求,卻同個人隱私、數據安全等合法權益間的關係變得緊張。個人信息被大量非法獲取並在黑市交易,成爲電銷、詐騙、精準營銷的數據源。

2016年,歐盟出臺GDPR(通用數據保護條例),並在二年後開始執行。GDPR賦予了個人對數據較強的控制,設置了包括知情同意、被遺忘權、數據可攜權、取用權等等一系列制度。不過對此,有批判者認爲:強力監管和嚴格的懲罰性舉措損害了互聯網的發展。而在中國,通過網絡安全法(2016年通過)、民法典(2020年通過)、數據安全法(2021年通過)、個人信息保護法(2021年通過)等法律,我國也構建起促進數據開發利用和保護個人組織合法權益、及國家安全、發展之間的利益平衡制度。

儘管個人信息權益成爲法律上一項人格權,但個人想從數據交易中分一杯羹卻依然困難重重。Reddit 2024年2月在IPO招股書中透露:通過與AI公司簽訂數據授權協議,已實現合計2.03億美元的收入。但創造數據的用戶並不能從中分得一絲一毫。曼昆律師事務所黃律師認爲,主要有三點原因:

其一:單個的個人數據基本沒有價值,只有“大數據”對於數據處理者纔有意義。

其二:個人對數據流通的每個環節都有法定的知情同意程序,複雜和不穩定的授權鏈,讓交易難以進行。

第三:通過理想的“匿名化”處理方案,即個人信息經過處理無法識別特定自然人且不能復原的過程,又會讓個人數據失去價值;其他的技術方案如隱私計算仍處在探索階段。

這樣產生的一個局面就是,處理者非常想用個人信息,但得不到龐大用戶的充分授權;用戶想獲益,但沒有渠道管理和交易個人信息。這個難題長期困擾政策制定者、學界和產業界。

2022年12月出臺的具有重要意義的“數據二十條”,提出了探索由受託者代表個人利益,監督市場主體對個人信息數據進行採集、加工、使用的機制。

目前國內數據交易所中個人數據產品寥寥無幾。今年,深圳數據交易所設計了一個個人衛生數據交易產品,一定程度踐行了“數據二十條”的理念。基本框架是通過統一的授權服務平臺,提高分散化的個人數據授權效率,同時實現個人的收益。

在這場個人和企業對數據的權力/鬥爭中,數據DAO憑什麼認爲自己可以幫助用戶奪回數據權益?

數據DAO:是什麼以及爲什麼

數據DAO(Decentralized Autonomous Organization)是一種基於區塊鏈技術的去中心化自治組織,旨在通過集體治理機制管理和利用數據資產。它通過智能合約和去中心化存儲技術,實現數據的透明、不可篡改和安全管理。數據DAO的核心在於將數據所有權和管理權從傳統的集中式平臺轉移到數據的實際所有者手中,即用戶。

目前,已經成型的數據DAO項目爲r/datadao,曼昆律師事務所黃律師也將基於該項目的業務模式進行合規分析。

r/datadao的業務模式

數據存儲

r/datadao的底層網絡是Vana網絡,該網絡旨在服務數據的去中心化管理和治理,採用了IPFS(InterPlanetary File System)作爲其去中心化存儲解決方案之一,支持安全存儲和高效處理r/datadao等項目的關鍵數據集。因此,當r/datadao的用戶將他們在Reddit上的活動數據(如帖子和評論)上傳到平臺時,這些數據通過IPFS技術進行去中心化存儲,用戶擁有數據存儲與傳輸的私鑰,進而保證數據的安全性和訪問控制。

激勵機制

用戶通過貢獻Reddit數據到r/datadao,可以獲得原生代幣$RDAT。這些代幣不僅代表了對數據的貢獻,也允許用戶參與到平臺的治理決策中。$RDAT的分配基於用戶在Reddit上的業力(Karma)值,這是一種衡量用戶社區活躍度和貢獻的指標。

社區治理

r/datadao實行去中心化治理,意味着所有重要的決策—如數據使用政策、合作伙伴關係和平臺升級—都通過持有$RDAT的用戶投票來決定。這確保了平臺運作的透明性和公平性。

數據使用和盈利模型:

社區成員可以投票決定如何使用匯集的數據。選項可能包括將數據授權給AI公司進行大模型訓練,或與其他企業和研究機構進行數據共享。r/datadao通過這種方式能夠生成收入,再將收入的一部分以代幣的形式分配給數據貢獻者。

數據隱私和安全:

儘管用戶向r/datadao提交了個人數據,平臺通過加密和去中心化技術確保這些數據的隱私和安全性。這意味着數據在未經用戶明確授權的情況下,不會被公開或濫用。

可以看出,與“數據二十條”和深圳交易所的方案相比,數據DAO也具有受託管理個人數據的性質,不同的是,用戶具備更多自主權,以及數據DAO和區塊鏈技術和代幣的深度關係。

數據DAO的意義體現在:

1.通過彙集大量個人數據,可以代理個人提高談判地位。單個用戶不僅持有的數據價值有限,而且在交易中處於弱勢易被剝削的地位。WPS就曾在隱私政策中允許平臺使用用戶文檔用於AI訓練,引起廣泛爭議。通過數據DAO,可以提高個人數據的交易價值。

正如r/datadao在官網說的那樣:Reddit已經以每年6000萬美元的價格出售我們的數據,並預計每年能從我們的數據中獲得2億美元的收入,如果我們團結起來,就可以對抗Reddit,將這些數據自行交易。

2.促進數據合規流通。類似wps這樣的AI公司面臨對個人數據想用不能用的困難。有時候在激烈競爭之下,採取網絡非法爬蟲(繞過Robots協議)和霸王授權條款的方式獲取數據。這樣AI公司極容易面臨不正當競爭、知識產權、隱私等方面的指控。而類似r/datadao這樣的數據DAO組織將爲市場供應更多的合規數據。

ChatGPT回答“openai面臨哪些訴訟”

3.打破數據壟斷和數據牆。互聯網公司通過佔據數據構建護城河,長期以來各個平臺之間數據不僅不能互聯互通,甚至用戶也沒有數據所有權。近年來,隨着反壟斷執法的深入,也不過是實現微信直接打開淘寶鏈接這樣的進展。而個人信息保護法規定的個人信息攜帶權,因無法操作處於未激活狀態。數據DAO的出現,可以讓互聯網公司的個人數據有個新的出口,激活個人信息攜帶權,還數據於民。

數據DAO的合規運營

代幣化的數據DAO,除了面臨加密行業都存在的運營地選擇、反洗錢、客戶身份識別、多法域監管等等合規問題外,還需要特別注意數據合規。

知情同意

數據DAO需要取得個人書面同意,才能收集、存儲個人信息。數據DAO應當用顯著方式、清晰易懂的語言真實、完整、準確向個人告知處理目的、處理方式、處理信息種類、保存期限、權利行使程序等。

多數投票決定使用的方式,並不能強迫反對者按照投票結果使用其個人信息。

敏感信息和未成年人信息

敏感個人信息是一旦泄露或者非法使用,容易導致自然人的人格尊嚴受到侵害或者人身、財產安全受到危害的個人信息,包括生物識別、宗教信仰、特定身份、醫療健康、金融賬戶、行蹤軌跡等信息,以及未成年人的個人信息。

只有在具有特定的目的和充分的必要性,並採取嚴格保護措施的情形下,個人信息處理者方可處理敏感個人信息。處理未成年人信息,應取得監護人同意,並制定專門的個人信息處理規則。

數據跨境

以中國爲例,處理個人信息達到一定數量的個人信息處理者,要將收集和產生的個人信息存儲在境內,數據出境需要通過網信辦安全評估。

數據安全

通過制定內部管理制度和操作規程、採取相應的加密、去標識化等安全技術措施等管理和技術手段,防止未經授權的訪問以及個人信息泄露、篡改、丟失。

根據數據類型、數據使用場景、監管法域的不同,仍有許多規定需要遵守,建議數據DAO尋求律師進一步諮詢。

總結

數據DAO幫助用戶奪回數據權益的敘事無疑激動人心,去中心的安排似乎確實有助於讓數據權利回到用戶手中。然而代幣化的傾向又讓問題變得複雜,面臨對代幣和數據行業的雙重強監管,是不是意味着數據DAO無法取得合法的出生證?無論如何,這是一個可探索的數據交易方向。

另外一方面,國內數據交易所、樹圖區塊鏈研究院等,已經提出一種完全合規的、以區塊鏈技術構建個人數據交易平臺的方案,這種類型的數據DAO,在大規模應用方面相對而言有着更強的政策確定性。