自 2022 年底以来,人工智能 (AI) 一词已成为主流用语的一部分。然而,每当围绕这项革命性技术的讨论出现时,焦点似乎主要集中在其使用尖端算法和驱动这些系统的强大硬件等方面。

然而,一个同样重要但经常被忽视的组成部分是支持这些人工智能模型的数据集。在过去的一年里,越来越明显的是,输入这些复杂系统的信息的质量和数量对人工智能系统的成功至关重要。但谁来收集这些数据?我们如何确保这些数据的多样性、准确性和合乎道德?

传统上,AI 数据收集一直是专家和专业团队的领域。这种方法虽然无疑会产生高质量的数据集,但往往会导致 AI 训练过程中出现瓶颈,尤其是在引入个体偏见时。因此,这不仅仅是拥有足够的数据;而是拥有代表广泛观点和用例的正确数据。

在此背景下,有关“去中心化 AI 基础设施”的讨论最近开始受到广泛关注,特别是因为它们为实现 AI 数据收集民主化和加速该领域的创新提供了合法的解决方案。到目前为止,现成的 AI 基础设施提供商 NeurochainAI 利用了一个名为“AI Mining”的社区驱动模块,允许个人参与各种数据收集和验证任务——有效地将其支持者变成了一个庞大而多样化的数据收集网络。

简化复杂事物

从外部来看,分散式 AI 数据收集系统的优点在于,它们能够将复杂的任务分解为易于管理的、不需要专业知识的小部分。这种方法通常被称为“微工作”,几乎任何受过基本培训的人都可以为 AI 开发做出贡献。

NeurochainAI 的“数据启动板”体现了这种方法,AI 开发人员或公司首先提交数据收集或验证任务。然后,这些任务被细致地分解为任何人都可以遵循的指令。社区成员(称为“AI 矿工”)可以选择他们感兴趣的任务,并使用各自的 DePIN(去中心化物理基础设施网络)中的消费者硬件完成这些任务——即利用消费者硬件执行计算任务的本地化数字生态系统,从而将工作负载分配到设备网络中。

收集到的数据随后会由其他社区成员进行验证,以确保准确性和质量。贡献者会因其努力而获得应有的回报,从而为人工智能开发者和社区营造出互利互惠的局面。

此外,NeurochainAI 的模型解决了人工智能最紧迫的挑战之一:巨大的能源消耗。传统的人工智能数据中心消耗大量电力,据估计,到 2027 年,它们消耗的电力可能与整个荷兰一样多。

不仅如此,国际能源署的一项研究估计,到 2026 年,这些数据中心的用电量可能会增加到 620 至 1,050 TWh,分别相当于瑞典和德国的能源需求。NeurochainAI 的方法可以分散这种计算负载,从而有可能减少 AI 开发的整体能源足迹。

解锁新领域

从目前的情况来看,人工智能数据收集民主化的影响似乎相当深远和令人兴奋。通过消除与“仅限专家的数据收集”实践相关的一些瓶颈,我们有可能看到人工智能应用在历史上因缺乏相关数据集而得不到充分服务的领域中出现爆炸式增长。

例如,我们可以想象人工智能模型能够理解和生成罕见语言的高质量信息(这要归功于世界各地母语人士收集的数据)。同样,新的医疗人工智能用例也会出现,例如那些可以识别罕见疾病症状的人工智能,这些人工智能是根据全球患者和医护人员提供的数据进行训练的。可能性真的是无穷无尽的!

最后但同样重要的一点是,这种民主化的方法可以带来更合乎道德和透明的人工智能开发。当数据收集成为一项社区努力时,这个过程本身就会有更多的监督和多样性。

因此,当我们展望人工智能驱动的未来时,像 NeurochainAI 这样的平台不仅改变了我们收集人工智能数据训练信息的方式;它们还彻底重塑了这一领域的格局。