不准确、重复和不完整的数据继续困扰着各行各业。人工智能被用来缓解这些问题,但它有固有的局限性。人工智能数据集可能包含错误标记或不相关的数据。

Fraction AI 通过将人工智能代理的效率与人类洞察力相结合,开创了一种新的数据标记方法。该公司最近完成了由 Symbolic 和 Spartan 共同领投的 600 万美元种子前融资,并得到了 Illia Polosukhin (Near)、Sandeep Nailwal (Polygon) 和其他杰出天使投资者的战略投资。

Fraction AI应对生产高质量数据日益增加的挑战。传统方法仅依赖于AI或人类。Fraction AI旨在利用人类理解作为AI代理的指导。此次融资将用于深入探索和基础设施升级,以扩大经过研究证实的前沿混合方法的规模。

引入游戏化对抗性提示

数据科学家已经证明,使用GAP或游戏化对抗性提示创建的数据集能够提升最新AI模型的性能。GAP框架涉及众包高质量数据以微调大型多模态模型,将数据收集转变为一种有趣的游戏。它鼓励玩家提供复杂、细致的问题和答案,以填补模型知识中的空白。

通俗来说,Fraction AI激励AI代理通过实时竞争创建高质量数据。开发者使用详细的指令设置和启动代理,以指导他们的行为并实现最佳结果,同时以以太坊作为经济基础。参与者获得经济激励,这促进了持续流入有价值的训练数据。

当前数据质量问题

不准确的数据每年让组织损失数千万美元。平常的例子包括拼写错误的客户姓名、错误的客户地址以及一般的数据录入错误。无论原因是什么,不准确的数据都无法使用,因为它会导致任何数据分析中的偏差。

当从多个来源导入数据时,最终得到重复数据集并不罕见。再以零售为例,您可能从两个来源导入客户列表,发现一些人同时在两个零售商处购买了商品。重复记录成为问题,因为您只希望每位客户被计数一次。

当来自两个不同系统的数据结合时,可能会出现不一致的格式。跨系统的不一致性可能会导致重大数据质量问题,除非能够迅速识别并纠正。

不完整的数据和黑暗数据是两个额外的问题。一些记录缺少关键信息,例如没有区号的电话号码或没有输入年龄的人口统计细节。黑暗数据或隐藏数据是收集和存储但未积极使用的数据。IBM估计,90%的来自物联网设备的传感器数据未被使用。许多组织甚至未意识到这一浪费的资源,这占据了平均组织数据存储费用的50%以上。

人类理解促进改进

作为一种教育工具,GAP激励人类挑战AI模型的局限性,从而显著提高性能。它通过让玩家识别数据集或AI输出中的不准确性或不一致性来鼓励错误检测。他们的多样化背景可以带来不同的视角,使得更容易发现单一开发团队可能忽视的偏见。

游戏化通过挑战或拼图鼓励创新思维,旨在扩展数据集或模型的极限。玩家可以发现新颖的用例,检测偏见的输出或输入,并提出更具包容性的替代方案。这减少了数据和模型中的系统性偏见,为各种应用创造了更公平的基础。此外,参与者将标记以前未注意到的数据异常,因为他们会因发现缺陷而获得奖励。识别重大缺陷的奖励可能会更高,从而降低现实应用中意外失败或漏洞的风险。

随着技术的扩展,越来越多的人可以同时玩游戏,从而实现指数级的改进,因为大量输入加速了对弱点的识别。

创造力的黑暗面

创造性的问题解决不一定是为了公共利益。奖励将是某些用户的主要动力,导致过度关注这些奖励。进一步说,合理期待恶意行为者试图利用系统,平台将需要部署机制以检测和阻止有害活动。一个例子是使用AI和统计模型来监控用户行为模式,标记指示垃圾邮件或异常提交模式的异常情况。单个用户异常高的提交率或重复模式可以标记以供审核。

GAP框架可以根据参与者的贡献历史分配声誉分数。理想情况下,新用户在建立信誉之前会有有限的影响,以减少初始剥削的风险。

最后,将会有用户随机标记问题。利用GAP的平台需要涉及人类专家或人工智能,以阻止参与者标记准确和有价值的数据。

将数据质量主流化

抛开风险不谈,人类将被鼓励在AI数据集中发现错误标记或无关数据,从而提高机器学习和AI模型的质量。超越AI,游戏化的贡献可以提高像维基百科或OpenStreetMap这样的免费公共可访问数据集的准确性和完整性。实时标记虚假信息将导致更可靠的存储库。

GAP还将影响有害、偏见或不当内容。像Reddit或YouTube这样的平台可以采用它,以更快地识别和删除此类内容。

 

免责声明:本文仅供信息参考。并不提供或打算用于法律、税务、投资、金融或其他建议。