本文經授權轉載自:《Web3Brand》
原文作者:Starzq
為什麼在 AI 的發展正在轉向「以數據為中心」?
為什麼 AI 數據賽道是 Crypto 擅長的擊球區?
DINDIN 是如何讓人人幫助 AI 模型預處理數據,並獲得相應的收益和報酬率的?還有哪些機遇與挑戰?
如果你對以上話題感興趣,歡迎閱讀本文,Enjoy!
1. AI 發展趨勢: 「以模型為中心」→「以數據為中心」
我在上篇文章《Crypto x AI Agents: 網路新範式的最後一塊拼圖》分享過,由 OpenAI 主推的 AI Agent 即將帶來網路新範式,創造數十兆美金的新市場,而 Crypto 承擔了「最後一塊拼圖」的重任,幫助 AI Agent 輕鬆的註冊ID、擁有財務身份(鏈上錢包),使得 AI Agent 可以成為真正的「獨立個體」,自主執行任務,釋放出最大潛力。
圖源:Web3brandCrypto x AI Agents: 網路新範式的最後一塊拼圖
要訓練出色的 AI Agents, 必然少不了算力、演算法、數據三件套。在這其中,我認為「數據賽道」還蘊含著不少的機會,特別是在 1-3 年的時間尺度裡。
Why 數據?
因為這個產業一開始大機率是由中心化頭部公司來引領的。而對於微軟/Google/OpenAI 這種體量的公司,算力可以採購輝達,演算法可以高薪聘請研究員和工程師,但數據呢?需要找第三方採購。
Reddit: 今年年初和Google簽署了一份每年 6,000 萬美元的數據授權協議,允許Google使用其內容來訓練 AI 模型;Reddit 也和 OpenAI 等公司簽署了類似的數據授權協議,總收入達到了 2.03 億美元;
Twitter: 2023 年 2 月,Twitter 宣佈將不再提供免費讀取貼文數據的 API, 一方面是馬斯克希望用 API 增加收入,另一方面也不希望其它 AI 公司免費爬數據來訓練模型。最基礎的檔位一個月 $100 但只能獲得 1 萬條貼文數據;專業版一個月 $5,000 可以獲得 1 百萬條貼文數據。對於訓練模型來說,一個月 1 百萬條肯定是遠遠不夠的,再要增加的話就需要使用企業版了,最低一個月 $42,000.
為什麼像 Reddit 和 Twitter 這樣的公司敢於給自家數據賣出高價呢?因為模型不斷往前發展,算力是體力,演算法是腦力,數據是知識,三者缺一不可。
在計算機科學中,有一句俗語「Garbage in, garbage out」(垃圾進,垃圾出);對 AI 模型也是如此,只有高品質的數據輸入,才會產出優質的 AI 模型。
圖源:Web3brandhttps://www.dreamstime.com/gigo-garbage-garbage-out-image289268999
同時,歷史數據即將被 AI 模型們耗盡,所以能源源不斷產出高品質增量數據的平台需求暴漲,凸顯價值,特別是可以產出自然語言語料的 Reddit, Twitter 這類社交網站。
GPT-4有著超1.8兆參數和13兆token的訓練數據,相當於自1962年開始收集書籍的牛津大學博德利圖書館儲存的單詞數量的12.5倍;Google的 Gemini 是在英語維基百科和 BookCorpus 中包含33億單詞的數據集上進行訓練的,微軟的 Turing-NLG 是在英語網頁中超過170億個詞組的數據集上進行訓練的;
研究機構Epoch報告,在未來兩年內,AI訓練將用盡網路上包含音影片在內的高品質數據格式。
(以上 Source: OpenAI,困於數據短缺)
這個產業的大佬們也意識到了這一點:
Sam Altman去年就表示,單純增加大型機器學習模型的參數數量,並不是提高模型性能的最佳途徑,獲取和利用大規模的、高品質的數據,以及對數據進行高效的工程化處理,才是提升模型能力的關鍵因素。知名AI學者吳恩達也曾表示,AI發展正在從「以模型為中心」加速轉向「以數據為中心」。
2. 千億規模的數據賽道,進入 Crypto x AI 擊球區
那麼「數據賽道」有多大呢?
上面已經提到,光是 Twitter 和 Reddit, 每年賣給大公司的數據就價值數億美金。
同時,有一家隱性小巨頭 ScaleAI,也正在從數據賽道裡面受益:年收入近 10 億美金,估值 138 億美元。
一家公司估值就達到 138 億美元,說明這個賽道至少是千億美金的規模。
這裡面有個冷知識,網上的語料是沒法直接給 AI 模型使用的,需要一系列預處理,特別是「數據標注」
如果說輝達是算力的賣鏟人,數據標注公司是數據的賣鏟人。
早期,為了讓AI更好地認識世界,需要人工標注數據投餵給機器學習。到了現在,雖然自動化數據標注取代了人工,但仍然需要非常專業的人士來寫詞條,針對相應的問題和指令,給出符合人類邏輯與表達的高品質的答案。
但這活又苦又累,大公司不願意花精力做,自然也給了創業公司更多的機會。Scale AI 就是這樣一步步脫穎而出。2023年,Scale AI公司的年化收入高達 7.5 億美元,其客戶幾乎涵蓋了美國 AI 各細分賽道的皇冠上的明珠。Reference: 數據標注做到了138 億美元估值,Scale AI憑什麼?
圖源:Web3brand數據在餵給 AI 模型訓練之前,需要有一系列預處理工作,包括數據清洗、數據標注、數據驗證和數據向量化 (Claude 製圖)
ScaleAI 業務營運的起家方法是典型的「地理套利」,一個典型的例子,OpenAI給合作方的時薪是12.5美元,經過層層外包,ScaleAI 最後給肯亞外包的時薪不到 2 美元(目前 ScaleAI 也增加了一定比例的 AI 標注)。
圖源:Web3brand
以上特點,讓這個價值千億的 AI 數據賽道也落入了 Crypto 擅長的擊球區:
Twitter 和 Reddit 賣給大公司價值數億美金的數據,都是使用者自己產出的,但使用者本身並沒有獲得任何收益;
ScaleAI 這樣的打標平台,建立在一層層的「中間商賺差價」上,一方面降低效率,另一方面也減少了實際工作者的利益。
那有沒有這樣的平台,可以跳過中間商,讓使用者自己來參與數據預處理,直接獲得對應的獎勵呢?
答案是 Yes, 我們今天給大家介紹的 DIN(Data Intelligence Network, 數據智慧網路) , 就是在打造這樣一個平台,讓人人幫助 AI 模型預處理數據,並獲得相應的收益和報酬率。
同時由於跳過了各種中間商,DIN 可以做到比傳統的數據供應商更低的成本。實現使用者、模型使用方、DIN 三方共贏。
圖源:Web3brand
而且每天已經有 70w 使用者在上面活躍了,有點意思。
3. DIN: 讓人人都可以參與數據處理並獲得收益
DIN 是第一個模組化AI數據預處理層(The Modular AI-Native Data Pre-Processing Layer),官網上的 Slogan 叫做「Cook data for AI and get paid」 (為AI「烹飪」數據並獲得收益)。
圖源:Web3brand
熟悉我的讀者都知道,我不太喜歡用「大詞」來介紹,我們直接看 DIN 是如何實現「讓人人都可以參與數據處理並獲得收益」的。
DIN 由 2 個產品構成
xData: 使用者通過這個產品進行數據收集與標注;
Chipper Nodes: 節點持有者可以通過運行程式,進行數據驗證和向量化,最終生成餵給 AI 的數據。
圖源:Web3brand
3.1 xData
xData 是 DIN 上的 AI 數據收集與標注產品,於 2024 年 4 月初在 opBNB 上啟動。
使用者只需要安裝 xData 的瀏覽器擴充應用程式+連接錢包,在任意一條貼文評論區點擊「GODIN」按鈕然後回復,就可以完成這條貼文的收集和標注,並獲得相應的積分 Wafer.
圖源:Web3brand
然後 Wafer 可以通過後續的節點預挖礦活動轉換為鏈上代幣 $xDIN,最後獲得主代幣 $DIN空投。
目前每個使用者一天可以「GODIN」 6 次,獲取上百 Wafer 積分。如果每天都玩的話,一個月可以有 3,000 左右的 Wafer, 實現了去掉中間商,直接讓每個人來參與數據收集和標注,並得到一定的收益(希望可以換幾頓豬腳飯哈哈)。
而且這件事對發展中國家的使用者非常友善,他們可以把收益在鏈上直接換成 USDT (還可以通過 staking 生息), 而不是面臨通膨的本國貨幣,實現了某種程度上的美元民主。
同時這個過程也實現了數據上鏈,把鏈下數據儲存在 BNB Chain 上的去中心化數據層 BNB Green Field 中。這也增加了數據的透明度,方便後續繼續將數據的使用和獎勵掛鈎。
不過這裡我覺得還可以有 2 個優化的地方
目前獎勵的只是「數據收集者」,其實可以把「數據生產者」也就是貼文作者納入到激勵體系裡面來,形成對特定內容的激勵機制,這樣 DIN 的價值不止是數據的處理,還有數據的生產,天花板會更高。
目前的標注流程也相對簡單,未來可以增加更多標籤,提升數據的品質。
3.2 Chipper Nodes
使用者通過 xData 收集和標注的數據,其實還不能直接用來訓練 AI 模型,還有 2 個重要的環節:
圖源:Web3brand
圖源:Web3brand
數據驗證(Data Validation):保證數據品質和完整性,剔除 Bot 參與;
數據向量化(Data Vectorization):因為 AI模型只能處理數值數據,不能直接處理文本、圖像等原始數據,所以需要通過向量化來將各類數據轉換為數值形式,使模型能夠進行數學運算(下面給出 2 個例子)。
# 文本向量化示例
# 原始文本:
text = 「機器學習很有趣」
# 1. One-hot編碼(詞袋模型)
# [0,0,1,0,...,0]
# 2. Word2Vec嵌入
# [-0.2, 0.5, 0.1, ..., 0.3]
# 3. BERT編碼
# [[0.1, -0.2, ...], [...], ...]
# 圖像向量化示例
# 原始圖像:
image = load_image(「cat.jpg「)
# 1. 像素值歸一化
# [[0.4, 0.5, 0.6],
# [0.3, 0.4, 0.5],
# ...]
# 2. CNN特徵提取
# [0.2, -0.1, 0.4, ..., 0.3]
可以看出,【數據驗證和向量化】相比【數據收集和標注】,需要不少計算量,於是 DIN 推出了第二個產品 Chipper Node, 節點持有者可以下載節點程式在自己的電腦上運行(普通 PC 就可以跑),也可以代理給第三方運行。
使用者在跑節點時候,一方面進行 DIN 網路裡的數據驗證和向量化處理,另一方面可以獲得對應的 $xDIN 代幣獎勵(TGE 時轉換為 $DIN, 據說還會在第三方盤前交易市場開放交易)。
通過 Chipper Node, DIN 把「數據驗證和向量化處理」的工作也去中心化的分配給使用者,讓運行節點的使用者來享有對應的激勵。
購買節點本身也自帶 DIN 空投(具體見白皮書),還能在 TGE 之後有單獨的礦池,分享 DIN 總量的 25%。
節點這個模式本身也是使用者分層營運的一種,可以篩選出了高品質的貢獻者,為項目的發展帶來源源不斷的推動力。
目前 DIN 有超過3萬名節點持有者,第一期節點銷售已經在 9月底結束,Tier 2 節點全部售罄,獲得總銷售額 250萬美金。
下一期節點銷售也即將開始,感興趣的朋友可以關注之。
圖源:Web3brand
3.3 數據表現
Dappbay 上列出了所有 BNB 生態項目 dApp 的數據,可以看到 DIN 的日活躍使用者量近 30 天都在 70w 上下,日交易量則在 120w 上下,都遠超」Infra-and-Tools」這個賽道下的平均值。
這裡面絕大部分都是使用 xData 來收集數據以獲得激勵的使用者,每 24 小時都需要重新在 opBNB 上交易驗證,反應了使用者的活躍度和熱情。這也得益於 xData 簡單易用,只要安裝一個瀏覽器擴充應用程式 + 連接錢包即可。
圖源:Web3brandhttps://dappbay.bnbchain.org/detail/din
圖源:Web3brandhttps://dappbay.bnbchain.org/detail/din
在整體排行榜上,DIN 在 24h / 7D / 30D 都保持在前 10. 有意思的是,在下面這個 24h 的排行榜中,DIN 排第 2 名,第 1 名 Particle Network 和 第 3 名 MyShell 我都寫過 ; )
圖源:Web3brandhttps://dappbay.bnbchain.org/ranking
3.4 商業合作
分析完了產品和使用者,我們來看看使用者貢獻的數據都用在了哪裡。
DIN 目前的商業合作分 3 類:
數據輸出
機器人輸出
場景擴充功能
數據輸出
今年 9 月,DIN 與領先的 AI 數據資源及服務提供商「核數聚科技」達成戰略合作,為其及合作夥伴提供高品質的AI訓練數據。
核數聚科技專注於為 AI 企業提供一站式客製數據解決方案,客戶包括思必馳,博世,網易、科大訊飛等科技巨頭。
使用者在 Web3 收集的數據提供給 Web2 公司用來訓練 AI 模型,剛好回應了前面我們講到的場景
讓人人幫助 AI 模型預處理數據,並獲得相應的收益和報酬率。
同時由於跳過了各種中間商,DIN 可以做到比傳統的數據供應商更低的成本。
使用者、模型使用方、DIN 三方共贏。
如果比傳統的數據供應商成本更低,品質更高,模型使用方有什麼理由拒絕呢?希望在未來看到更多這樣的合作。
機器人輸出
除了數據輸出之外,DIN 還做了一件有意思的事情。基於使用者收集的數據,DIN 自己訓練了一個 AI 社群管理機器人服務,整合到 BNB Chain 官方的 Discord 社群中,成為 BNB Chain 官方的的 AI 服務提供商。
DIN 把這套創建聊天機器人的能力也開放給了使用者,上線了一個創新產品——名為 Reiki 的機器人創建服務,嘗試 AI 時代的創作者經濟,還拿過 Product Hunt 當天和當月的第一名。
圖源:Web3brand
場景擴充功能
今年 6 月,DIN 宣佈與以太坊 L2 Mantle 達成合作,Mantle Network 的使用者也可以使用 xData 來收集數據,賺取Wafer積分,有機會鎖定未來的 DIN 代幣空投權益。
通過此次合作,DIN 從一開始的 opBNB 開始進行多鏈部署擴充功能使用者和生態,合作方(比如 Mantle Network)也可以通過 DIN 的設施來建設 AI 生態,形成雙贏。
3.5 團隊和融資
DIN 這個名字看起來有點新,但其實從 2021 年就開始了項目的建設。當時的名字叫做「Web3Go」,最初的方向是Polkadot(波卡)生態的鏈上數據分析產品。
2022 年 Web3Go 進入了 BNB 生態,參與了 Binance Labs 舉辦的 MVB 第 5 期孵化器,並最終以「多鏈開放數據分析平台「的定位拿到 Binance Labs 的領投👏, 同時 Haskkey Capital, NGC Ventures 等知名基金跟投,一共 400w 美金。
2023 年 Web3Go 進行了定位升級,從「鏈上數據服務商」升級為「Data Intelligence Network (數據智慧網路)」,開始 Crypto x AI 方向的探索,提供「鏈上數據看板」和「鏈下數據訓練 AI Agent」兩方面服務,長期服務 Manta Network(都做過波卡生態)、BNB Chain 等客戶。
2024年項目進行了品牌升級,正式改名為 DIN, 定位為「首個模組化的AI原生數據預處理層」,啟動了前面我們介紹的 2 個產品,AI 數據收集與標記產品 xData 和 AI 數據驗證與處理節點 Chipper Node.
在今年 8 月,DIN 再次獲得 400w 美金融資,投資方包括 Manta Network、Moonbeam、Ankr 和 Maxx Capital, 總融資額達到 800w 美金。
團隊核心成員畢業於哥倫比亞大學、倫敦大學學院、斯圖加特大學等全球知名高校。CEO Hao 在人工智慧產業有著數年的經驗,同時曾在身份聚合器 Litentry 擔任 VP, 幫助其在幣安成功上幣。
因為我自己也創過業 pivot 過,我最直接的感受是,團隊的韌性還挺強的,一直在圍繞著「數據」尋找機會,最終把 C 端場景和 B 端需求連接了起來。
而且 800w 美金其實並不多,但 DIN 的整套產品還挺齊全,側面說明團隊的戰鬥力不錯。
4. 機遇與挑戰
最後談一下我的想法
1、AI Agent 即將給整個 AI 產業帶來顛覆性的變化,而數據會成為模型訓練的關鍵,特別是 Agents 需要的擬人化數據和各類業務知識;
2、千億規模的數據賽道,進入 Crypto x AI 擊球區,同時越來越多的使用者會關注自己的數據主權和權益:
自己的數據,被 Reddit / Twitter 拿去賣錢;
發展中國家的標注員,被中間商層層克扣;
3、但實話說,人人都能看到的賽道,「卷」是必然的
共享爬蟲網路 Grass 已經上幣,流通市值 7.5 億美金,FDV 31 億美金,堪稱這個賽道的龍頭。邏輯更簡單粗暴,使用者下載一個Chrome 擴充應用程式在電腦上跑節點,節點就直接開始爬數據,數據經過清洗和結構化用於訓練大型語言模型(LLM),同時建立一個透明的數據市場,為所有參與者提供獎勵(參與者其實就是共享自己的電腦來去中心化的爬數據,以跳過 Reddit / Twitter 對爬蟲的集中封鎖😂)。類似的項目也有不少。
圖源:Web3brand
4、在「卷」之下必須做出差異化。DIN 的更多可能性包括:
DIN 的一個優勢是使用者在人工採集,其實是承擔了 Curator 的角色,這可以是非常有意思的一件事,有機會讓採集者打上更多的標籤,提升數據品質,高品質的數據永遠是最受模型歡迎的;
另外,如果把數據生產者也就是貼文作者納入到激勵體系裡面來,形成對特定內容的激勵機制,這樣 DIN 的價值不止是數據的處理,還有數據的生產,天花板會更高。
5、有一件事是是所有的數據採集項目都需要關注的,未來跑節點和採集數據的,可能不再是人類,而是 AI Agents. 如何開發面向 AI Agents 的產品,可能會成為核心競爭力。
我會繼續對這個賽道和相關的項目保持關注。
FIN
(我們的研究和觀點僅代表個人看法,不作為投資建議,DYOR)
【免責聲明】市場有風險,投資需謹慎。本文不構成投資建議,使用者應考慮本文的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。
『活躍用戶達70萬!DIN嚕空投教學:參與數據處理就能賺錢?』這篇文章最早發佈於『加密城市』