不準確、重複和不完整的數據繼續困擾着各行各業。人工智能被用來緩解這些問題,但它有固有的侷限性。人工智能數據集可能包含錯誤標記或不相關的數據。
Fraction AI 通過將人工智能代理的效率與人類洞察力相結合,開創了一種新的數據標記方法。該公司最近完成了由 Symbolic 和 Spartan 共同領投的 600 萬美元種子前融資,並得到了 Illia Polosukhin (Near)、Sandeep Nailwal (Polygon) 和其他傑出天使投資者的戰略投資。
Fraction AI應對生產高質量數據日益增加的挑戰。傳統方法僅依賴於AI或人類。Fraction AI旨在利用人類理解作爲AI代理的指導。此次融資將用於深入探索和基礎設施升級,以擴大經過研究證實的前沿混合方法的規模。
引入遊戲化對抗性提示
數據科學家已經證明,使用GAP或遊戲化對抗性提示創建的數據集能夠提升最新AI模型的性能。GAP框架涉及衆包高質量數據以微調大型多模態模型,將數據收集轉變爲一種有趣的遊戲。它鼓勵玩家提供複雜、細緻的問題和答案,以填補模型知識中的空白。
通俗來說,Fraction AI激勵AI代理通過實時競爭創建高質量數據。開發者使用詳細的指令設置和啓動代理,以指導他們的行爲並實現最佳結果,同時以以太坊作爲經濟基礎。參與者獲得經濟激勵,這促進了持續流入有價值的訓練數據。
當前數據質量問題
不準確的數據每年讓組織損失數千萬美元。平常的例子包括拼寫錯誤的客戶姓名、錯誤的客戶地址以及一般的數據錄入錯誤。無論原因是什麼,不準確的數據都無法使用,因爲它會導致任何數據分析中的偏差。
當從多個來源導入數據時,最終得到重複數據集並不罕見。再以零售爲例,您可能從兩個來源導入客戶列表,發現一些人同時在兩個零售商處購買了商品。重複記錄成爲問題,因爲您只希望每位客戶被計數一次。
當來自兩個不同系統的數據結合時,可能會出現不一致的格式。跨系統的不一致性可能會導致重大數據質量問題,除非能夠迅速識別並糾正。
不完整的數據和黑暗數據是兩個額外的問題。一些記錄缺少關鍵信息,例如沒有區號的電話號碼或沒有輸入年齡的人口統計細節。黑暗數據或隱藏數據是收集和存儲但未積極使用的數據。IBM估計,90%的來自物聯網設備的傳感器數據未被使用。許多組織甚至未意識到這一浪費的資源,這佔據了平均組織數據存儲費用的50%以上。
人類理解促進改進
作爲一種教育工具,GAP激勵人類挑戰AI模型的侷限性,從而顯著提高性能。它通過讓玩家識別數據集或AI輸出中的不準確性或不一致性來鼓勵錯誤檢測。他們的多樣化背景可以帶來不同的視角,使得更容易發現單一開發團隊可能忽視的偏見。
遊戲化通過挑戰或拼圖鼓勵創新思維,旨在擴展數據集或模型的極限。玩家可以發現新穎的用例,檢測偏見的輸出或輸入,並提出更具包容性的替代方案。這減少了數據和模型中的系統性偏見,爲各種應用創造了更公平的基礎。此外,參與者將標記以前未注意到的數據異常,因爲他們會因發現缺陷而獲得獎勵。識別重大缺陷的獎勵可能會更高,從而降低現實應用中意外失敗或漏洞的風險。
隨着技術的擴展,越來越多的人可以同時玩遊戲,從而實現指數級的改進,因爲大量輸入加速了對弱點的識別。
創造力的黑暗面
創造性的問題解決不一定是爲了公共利益。獎勵將是某些用戶的主要動力,導致過度關注這些獎勵。進一步說,合理期待惡意行爲者試圖利用系統,平臺將需要部署機制以檢測和阻止有害活動。一個例子是使用AI和統計模型來監控用戶行爲模式,標記指示垃圾郵件或異常提交模式的異常情況。單個用戶異常高的提交率或重複模式可以標記以供審覈。
GAP框架可以根據參與者的貢獻歷史分配聲譽分數。理想情況下,新用戶在建立信譽之前會有有限的影響,以減少初始剝削的風險。
最後,將會有用戶隨機標記問題。利用GAP的平臺需要涉及人類專家或人工智能,以阻止參與者標記準確和有價值的數據。
將數據質量主流化
拋開風險不談,人類將被鼓勵在AI數據集中發現錯誤標記或無關數據,從而提高機器學習和AI模型的質量。超越AI,遊戲化的貢獻可以提高像維基百科或OpenStreetMap這樣的免費公共可訪問數據集的準確性和完整性。實時標記虛假信息將導致更可靠的存儲庫。
GAP還將影響有害、偏見或不當內容。像Reddit或YouTube這樣的平臺可以採用它,以更快地識別和刪除此類內容。
免責聲明:本文僅供信息參考。並不提供或打算用於法律、稅務、投資、金融或其他建議。