作者:Li Jin

编译:深潮TechFlow

数据 DAO 代表了生成新的高质量数据集和克服 AI 数据墙的一条途径。

随着OpenAI与News Corp和Reddit之间的高调数据许可协议的达成,凸显了高质量数据在AI中的重要性。如今,前沿模型已在大量互联网数据上进行了训练,例如,Common Crawl 索引了大约10% 的网页,用于LLM训练并包含超过 100 万亿个令牌。

进一步改进人工智能模型的一个途径是扩大和增强它们可以训练的数据。我们一直在讨论如何聚合数据的机制,特别是以去中心化的方式。我们尤其感兴趣的是探索分散式方法如何帮助生成新的数据集,并从经济上奖励贡献者和创造者。

在过去几年中,加密货币内部讨论的一个话题是数据 DAO 的概念,即创建、组织和管理数据的个人集体。Multicoin和其他公司已经涵盖了这个话题,但人工智能的快速发展是数据DAO新的“为什么是现在”的催化剂。

当今 AI 中的数据

如今,人工智能模型都是通过新闻集团和 Reddit 交易等合作方式,或通过在开放互联网上搜索数据,在公共数据上进行训练的。例如,Meta 的 Llama 3 就是在 15 万亿个公开来源的代币上训练出来的。这些方法都能有效地快速聚合大量数据,但它们在收集数据的内容和方式上都有局限性。

首先是 "什么":人工智能的发展受到数据质量和数量的瓶颈制约。Leopold Aschenbrenner 曾撰文指出,"数据墙 "限制了算法的进一步改进: "很快,在更多废旧数据上预训大型语言模型的天真方法就会开始遭遇严重瓶颈"。

推倒数据墙的方法之一是开放新数据集的可用性。例如,模型公司无法在不违反大多数网站服务条款的情况下获取登录数据,而且顾名思义,它们也无法获取尚未汇总的数据。此外,还有大量私人数据是目前人工智能训练无法触及的:比如企业的 Google Drives、公司的 Slacks、个人健康数据或私人信息。

第二,如何: 在现有模式下,汇集数据的公司获取了大部分价值。Reddit 的 S-1 将数据授权作为主要的预期收入来源: "我们预计,我们不断增长的数据优势和知识产权将继续成为未来法律硕士培训的关键要素。产生实际内容的最终用户并没有从这些许可交易或人工智能模型本身中获得任何经济利益。这种错位可能会扼杀人们的参与--现在已经出现了起诉生成式人工智能公司或选择退出训练数据集的运动。更不用说将收入集中在模型公司或平台手中,而不分给最终用户的社会经济影响了。

数据DAO的影响

上述数据问题有一个共同点:它们受益于来自多样化、代表性用户群的大规模贡献。任何单个数据点对模型性能的价值可能微不足道,但集体上,一个大型用户群体可以聚合出对AI训练有价值的新数据集。这正是数据DAO的用武之地。通过数据DAO,数据贡献者不仅可以看到经济收益,还可以管理这些数据的使用和货币化。

数据DAO可以解决当前数据领域的一些空白,包括但不限于以下几个方面:

现实世界数据

在去中心化物理基础设施(DEPIN)领域,类似Hivemapper的网络通过激励行车记录仪所有者贡献他们的数据来收集世界最新的全球地图数据,并通过应用程序激励用户贡献数据(例如道路封闭或维修信息)。DEPIN可以被视为现实世界的数据DAO,数据集由硬件设备和/或用户网络生成。这些数据对各种公司具有商业价值,收入以代币奖励的形式返还给贡献者。

个人健康数据

生物黑客是一种社会运动,个人和社区通过自我实验研究生物学。例如,个人可能会消费不同的脑功能增强药物,或测试不同的治疗方法或环境变化以改善睡眠,甚至自我注射实验药物。

数据DAO可以为这些生物黑客活动带来结构和激励,通过组织参与者进行共同实验并系统地收集结果。个人健康DAO通过研究实验室或制药公司的收入可以以代币奖励的形式返还给贡献结果的参与者。

人类反馈强化学习

通过人类反馈进行AI模型的微调(RLHF)涉及利用人类输入来提高AI系统的性能。通常,反馈提供者需要是其领域的专家,能够有效评估模型的输出。例如,实验室可能会寻求数学博士来提高其LLM的数学能力。代币奖励可以通过其投机性收益来吸引和激励专家参与,并通过使用加密支付轨道提供全球访问权限。像 Sapien、Fraction 和 Sahara 这样的公司正在这个领域工作。

私有数据

随着用于AI训练的公开数据逐渐枯竭,竞争的基础可能会转向专有数据集,包括私有用户数据。大量高质量数据仍然在登录墙和直接消息、私人文档等后面无法访问。这些数据不仅可以有效地训练个人AI,还包含公共网络上无法访问的有价值信息。

然而,访问和利用这些数据面临重大挑战,包括法律和道德方面。数据DAO可以通过允许愿意的参与者上传和货币化他们的数据并管理其使用方式来提供解决方案。例如,Reddit数据DAO允许用户上传从平台导出的Reddit数据,包括评论、帖子和投票历史,进入一个数据库,可以以隐私保护的方式出售或出租给AI公司。代币激励允许用户不仅通过一次性交易获得收入,还可以基于AI模型使用其数据所创造的价值获得收益。

开放问题与挑战

虽然数据DAO的潜在好处显著,但也存在一些考虑和挑战。

激励的扭曲影响

从加密领域使用代币激励的历史中可以看出,外在激励会改变用户行为。这直接影响到利用代币激励进行数据收集的方式:激励可能会扭曲参与者基础和所贡献的数据类型。

引入代币激励还可能导致参与者试图通过提交低质量或伪造数据来最大化收益。这一点尤为重要,因为这些数据DAO的收入机会取决于数据质量。如果贡献数据被扭曲,将削弱数据集的价值。

数据测量和奖励

数据DAO的核心理念是通过代币激励奖励贡献者的提交,长期来看这些奖励会与DAO的收入趋同。然而,准确奖励不同数据贡献的难度较大,因为数据价值具有主观性。例如,在生物黑客的例子中:某些用户的数据是否比其他用户更有价值?如果是,决定因素是什么?对于地图数据:某些地理区域的地图信息是否比其他区域更有价值,如何量化这种差异?目前在通过计算数据对模型性能的增量贡献来衡量数据价值的研究正在进行,但这些方法可能计算量很大。

此外,建立健全的机制来验证数据的真实性和准确性至关重要。没有这些措施,系统可能容易受到欺诈性数据提交(例如创建虚假账户)或Sybil攻击的影响。DEPIN网络试图通过在硬件设备层面进行集成来解决这一问题,但其他依赖用户驱动贡献的数据DAO可能容易受到操纵。

新数据的增量性

大部分公开网络已经被用于训练,因此数据DAO运营者必须考虑通过分布式努力收集的数据集是否真正是增量的,是否对现有的公开网络数据有附加价值,以及研究人员是否可以从平台上许可这些数据或通过其他方式获取。这些想法强调了收集超越现有数据的新数据的重要性,这也引出了下一个考虑因素:影响的规模和收入机会。

收入机会的规模

本质上,数据DAO正在构建一个双边市场,将数据买家与数据贡献者连接起来。数据DAO的成功取决于吸引一个稳定且多样化的客户群体愿意为数据支付费用。

数据DAO需要识别和验证其最终需求,确保收入机会足够大,无论是总量上还是每个贡献者的收入上,以激励所需的数据数量和质量。例如,多年来一直在讨论创建一个用户数据DAO以汇集个人偏好和浏览数据用于广告目的的想法,但最终,这样一个网络能够传递给用户的收入可能是微不足道的。(作为对比,Meta在2023年底的全球ARPU为13.12美元。)随着AI公司计划花费数万亿美元进行训练,用户数据的收入可能足够诱人,以引发大规模贡献,提出了一个有趣的“为什么现在”数据DAO的机会。

克服数据墙

数据DAO代表了一条生成新高质量数据集并克服AI数据墙的潜在有希望的路径。具体如何实现尚待观察,但我们对这一领域的发展充满期待。