AI 有三大基石:算力、数据和算法。
在这三者中,算力的重要性最为直观,因此「卖铲子」的英伟达市值一度超越微软和苹果,成为全球最值钱的公司。然而,正如 Scale AI 创始人 Alex Wang 在一次播客中所强调的,数据正在取代算力,成为 AI 模型性能提升的最大瓶颈。
AI 对数据的渴求无止境,但可访问的互联网数据资源已近枯竭。要进一步提升模型性能,必须依赖更多高质量的数据。虽然企业内部拥有大量有价值的数据,但这些非结构化数据只有经过精细标注,才能真正用于 AI 训练。而数据标注是一项资源密集型工作,长期以来被视为 AI 产业链上最辛苦、最卑微的部分。
不过,正是凭借率先进入数据标注领域的战略,Scale AI 在今年 5 月的最新一轮融资中获得了 138 亿美元的估值,超过了许多知名的大模型公司。这一成就无疑打破了「数据标注只是苦力活」的偏见。
就像很多去中心化算力项目向英伟达发起挑战一样,今年 4 月刚完成 500 万美元种子轮的加密 AI 项目 Sapien AI 也试图向 Scale AI 发起挑战。它不仅要通过去中心化的方式切入长尾市场,还计划打造全球最大的人工数据标注网络。
近日,BlockBeats 专访了 Sapien AI 的联合创始人兼 COO Trevor Koverko。作为 Polymath、Polymesh 和Tokens.com等多个成功项目的联合创始人,Trevor 在创办 Sapien AI 之前已积累了丰富的创业经验。在采访中,他深入分享了自己创办 Sapien AI 的历程,以及对 Sapien AI 与 Scale AI 如何展开错位竞争的策略、以及如何从区块链游戏中汲取灵感来设计业务机制的独到见解。
Sapien AI 项目体验网址:game.sapien.io
创新沃土多伦多,加密与 AI 社区的创意结晶
BlockBeats:我从您的领英上看到您曾在 NHL 纽约游骑兵队效力。作为一名前职业冰球运动员,您是如何转型进入加密行业的?
Trevor:在我的职业生涯中,我尝试过许多不同的角色。冰球是我的第一份工作。在加拿大,冰球是我们文化中非常重要的一部分,如果你小时候不打冰球,几乎就会被人视为异类。所以,这是我成长过程中的重要一环。我从团队合作和高水平竞技中学到了很多,这些经历至今仍在影响我。
当我的冰球生涯结束后,我开始从事商业,实际上,我曾在亚洲度过了一段时间。我住在中国,具体来说是中国东北的城市大连。我的体育生涯和在中国的经历是塑造我成长过程中非常重要的两大部分。
我是在多伦多的加密生态系统中成长起来的。我很早就参与了比特币社区,那个时候以太坊还没有推出。我们经常参加聚会,和朋友们一起交流,还遇到了 Vitalik,当时他只是《Bitcoin Magazine》的编辑。
后来,当 Vitalik 发布白皮书,比特币社区逐渐演变成了以太坊社区。那是一段激情燃烧的岁月。我在 2017-2018 年推出了自己的 RWA 项目 Polymath,当时这个领域甚至还没有一个明确的分类,我们称之为「证券型代币」。这是我在加密领域的第一个重大项目。我们在这个项目中做了方方面面的工作,从筹集资金到在以太坊上发布应用。
最终我们还建立了自己的 Layer 1 区块链,这是一个更大的挑战。幸运的是,我们有像 Charles Hoskinson 这样非常聪明的人担任协议架构师。如今,这个区块链已经发展成为独立的品牌,名为 Polymesh。它是最早也是最大的 RWA 网络之一,而且是 Layer 1 级别的。现在我只是一个社区成员,因为它已经完全去中心化了,我只是远远地支持着这个网络。就采用率而言,它表现得非常好,现在 RWA 也逐渐成为一个令人兴奋的生态系统。
BlockBeats:什么契机让您的兴趣从 RWA 转向 AI,并决定创办 Sapien AI?
Trevor:在 Polymesh 日常运营去中心化后,我开始对 AI 产生了兴趣。多伦多有一个非常强大的 AI 技术社区,很多现代 AI 的早期架构都是由多伦多大学的研究人员创造的,比如「深度学习之父」Geoffrey Hinton 和 OpenAI 前首席科学家 Ilya Sutskever。
左一:Ilya Sutskever;右一:Geoffrey Hinton
我本身对使用 AI 就很感兴趣,同时在滑铁卢大学也有一帮从事机器学习的聪明朋友。我逐渐对 AI 的技术栈、运作方式、训练数据的生产过程,以及人类如何参与这些训练数据的生产产生了兴趣。这是一个非常自然的学习过程。
起初我并没有创办公司的野心,但在深入 AI 和机器学习领域大约 6 个月后,在滑铁卢大学机器学习研究生项目一位导师的指导下,我们开始发现一些存在问题的有趣领域,并看到了解决这些问题的机会。最终,我们创立了 Sapien 这家公司。
BlockBeats:您可以为不了解 Sapien AI 的人介绍一下这个项目的核心使命是什么吗?在当前的 AI 行业中,数据标注服务的重要性体现在哪里?
Trevor:数据标注极其重要。这也是 ChatGPT 这类主流大语言模型成功的主要原因之一,因为它们是首批使用工业规模的人类数据标注员来丰富数据集的模型。
时至今日,数据标注的重要性还在不断增加,因为这些模型之间的性能竞争非常激烈,而提升模型性能的最佳方式就是在数据集中加入更多的专业人类数据标注。
我们将数据处理视为一个供应链:首先是原始数据,然后需要对其进行结构化和组织。完成结构化后,就可以训练这些数据。训练完成后,就可以在其上进行推理。简而言之,这是一个将数据在人工智能背景下逐步增值的过程。
就像其他行业一样,我们开始看到 AI 行业的细分,不同的垂直领域正在涌现,某些公司在流程的特定步骤上表现出色。对我来说,最有趣的是第二步,即数据的结构化和训练准备,这一直是我最感兴趣的部分。
去中心化的 Scale AI,瞄准长尾市场
BlockBeats:是什么让 Sapien AI 不同于传统的 Web2 公司,如 Scale AI?
Trevor:这是个好问题。我们很欣赏 Scale,他们是一家了不起的公司,联合创始人都非常出色。我们认识其中一位。他们是世界上最大的 AI 公司之一,无论是从收入、市值还是使用量来看都是如此。
我们的不同之处在于,我们从第一性原理出发,思考在 2024 年,一个现代化的数据标注技术栈应该是什么样子。我们并不一定追求 Scale 所覆盖的那些用例,我们的目标是中端市场和长尾市场。
我们努力让任何人都能轻松获得数据集的人工反馈,无论你是中端市场的开源模型,还是企业级模型,或者只是周末进行研究的个人。如果你想提高模型性能,需要随需应变的人工反馈,那就来找我们。
你可以把我们看作是 Scale AI 的一个更分布式或去中心化的版本。这意味着我们的标注员更加广泛,他们不局限于某个特定位置,而是可以在任何地方远程工作。某种程度上,这种分散性可以让我们在数据标注质量上做得更好,因为多样性不仅仅是为了实现多元化,还可以提升数据训练的质量
例如,如果你在一个设施中让一群背景相似的人标注数据,很可能会产生有偏见或文化倾向的数据输出。因此,我们从一开始就努力使其尽可能多样化和稳健。由于更加去中心化,我们在某种程度上也能获得更高质量的标注员。如果你必须去菲律宾某个特定地点工作,你能吸引到的人才是有限的,但通过远程优先的方式,我们可以从任何地方找到标注员。
我并不是说 Scale 没有做这些事情,但我们在思考如何服务于模型市场的其他部分。因为我们认为这个市场会不断增长,将会出现大量需要人工反馈的私有和许可模型。
BlockBeats:Sapien AI 的数据标注工作流程是如何设计和优化的?有哪些关键环节确保数据质量?
Trevor:我们的平台运作方式类似于一个双边市场。你可以把它想象成数据标注界的 Uber,一个去中心化的版本。一方面是需求方,就像 Uber 中的乘客,对我们来说就是需要在其模型中获取人类反馈的企业客户。比如,他们正在构建一个大语言模型,想要对模型进行微调,这时就需要人工参与。
他们来找我们,将原始数据集上传到网络。我们根据数据集的几个不同变量(如复杂度、数据模态、数据格式等)给出报价。对企业客户来说,这个过程是非常自助的。
另一方面是供应方,即标注人员,他们相当于我们的 Uber 司机。目前,这实际上是行业的瓶颈,我们需要尽可能多的标注员加入网络。因为需求基本上是无限的,就像 Uber 一样,总有人想搭车,这个需求永远不会结束。在 AI 领域,这些 AI 模型对消耗更多数据的需求也是持续不断的。
我们非常关注供给侧,致力于让任何人都能轻松地进行数据标注。我们发明了一些新技术,并且仍在不断改进这些技术,以确保在分布式模式下实现大规模的高质量标注。最初我们提出的问题是,在没有中心化管理的情况下,能否确保高质量的标注?这实际上是我们所谓的「数据标注三难问题」:我们能否让客户的成本更低,让标注员的收入更高,同时提高整体质量?
我们在这个领域进行了多次实验,取得了一些非常有趣的结果。我们尝试了均值回归、异常检测等不同的新机制,并混合使用了一些概率模型,这些模型可以在很大程度上推测标注员的工作质量。我们还在研发一些更新的技术。不过到目前为止,我们对未来五到十年数据标注的发展前景感到非常兴奋。我们认为,数据标注将会变得更加去中心化、更自助化和更自动化。
BlockBeats:能否更详细介绍一下你们的产品和技术,特别是那些能确保数据质量的部分?我知道你们有质押机制来防止标注员作恶,还有其他技术吗?
Trevor:是的,我们正在尝试许多不同的方法。我们有声誉系统,还有质押与惩罚机制。标注者在质押一定的资金后,如果未能达到标准,可能会被罚款。这些机制还处于早期实验阶段,但我们发现,仅仅这种激励机制就可以显著提高质量的遵守度,甚至可能提高多个标准差。不过,这一系列质量控制是由不同算法的加权平均来实现的,我们也在不断微调这些算法。同时,我们自己也在使用机器学习来优化这一过程。比如,我们使用 ML linter 工具和「红兔子」测试,即向标注者提供虚假数据,以测试他们是否诚实标注。
这是一个大问题:如何知道人们是否在对网络进行女巫攻击(即试图作弊并操纵系统)?我们必须时刻警惕这一点。这也是我们喜欢某些 Web3 激励机制的原因,因为这些机制最初就是为了解决类似的女巫攻击问题、拜占庭将军问题而发明的,目的是让遵守规则符合每个人的最佳利益。如果你自私,你就会遵循网络协议。
我们还处于早期阶段。对一些大客户,我们实施了更传统的质量控制方法,同时我们也在快速向这个新的前沿数据世界迈进。
BlockBeats:您觉得 Sapien AI 作为一个去中心化数据标注平台的最大优势是什么?
Trevor:正如我所说,我们的平台更加自助化,这使我们能够服务更广泛的客户群。对于标注员来说,我们的要求也非常宽泛。我们希望任何人都能成为标注员,因为我们相信 AI 的下一个时代或下一章将是从人类那里提取更多现有知识。不仅仅是基础层面的东西,比如「这是一个停车标志」、「这是一辆汽车」之类人类和机器都能轻易识别的内容,而是更多关于推理的内容。
Scale 公司的 Alex Wang 谈到过这个问题:互联网上的数据是推理的结果,但并没有真正描述推理的过程。那么,我们如何更深入地了解人们的思维?这需要更多的工作,需要更专业的标注。这有可能帮助我们加速通用人工智能(AGI)的发展。
所以,我们的更大使命是:我们能否在企业内部的私有数据集中,在专业人士的头脑中,解锁更多知识?这些专业人士在某些垂直领域(如医疗或法律)拥有模型尚未掌握的专业知识。
我们仍在努力使我们的平台尽可能具有流动性,尽量保持供需平衡。我们希望实现动态定价,就像 Uber 那样。这些机制使我们更像一个真正的双边市场,一边满足数据需求,一边帮助标注员加入。这些都是我们构建平台的一些独特方式。在质量保证方面,我们实时使用了我之前提到的那些技术。我们希望我们的标注员尽可能多地获得实时反馈,因为这能为所有人创造更好的体验。
Label to Earn,零工经济的未来
BlockBeats:我注意到 Sapien AI 与游戏公会 Yield Guild Games(YGG)达成了合作,所以 Sapien AI 的去中心化标注机制是否可以理解为一种「label to earn」游戏?
Trevor:完全正确。我们确实希望能够进入那些想通过手机谋生的人的世界,我们认为这是零工经济的未来。你不需要一辆车来开 Uber,不需要在一个实体地点进行外卖配送,你只需要登录手机,进行数据标注,就可以赚取收入。
YGG 是一个了不起的合作伙伴,他们是我们的天使投资人之一。我们与创始人 Gabby 关系很好,他们在东南亚有一个了不起的社区。我们与他们有宏大的计划,希望帮助他们的用户找到新的赚钱方式,同时他们也帮助我们获得新用户。我们最近宣布了一些合作项目,未来还有更多计划正在筹备中。Q4 的大部分时间里,我们也会在亚洲,与这些合作伙伴见面,并继续推动合作。
BlockBeats:您对《Axie Infinity》这样的「play to earn」区块链游戏有什么看法?
Trevor:这非常具有创新性,可以说是一个灵感的源泉。虽然只是一个实验,但我相信它会以新的形式回归。这就是创业公司和去中心化创业的美妙之处,是一种创造性破坏。
我们正在做的事情确实有一些「play to earn」的元素,我们也倾向于使用「label to earn」或「train to earn」这样的说法。但其中还是有区别的,因为我们是一个真正的业务。这里有真实的数据被标注,有真实的客户支付真金白银,最终有一个真实的产品被生产出来。所以这不只是一个无限循环的视频游戏。
虽然用 Sapien AI 标注数据很有趣,但可能不如玩《侠盗猎车手 V》那么有趣。我们希望在趣味性和实用性之间取得良好的平衡,让它既是一种你可以在公交站等 5 分钟时做的事情,也可以是在家里电脑前花 5 小时做的事情。我们的目标是让它尽可能地易于参与。
BlockBeats:你们是否有办法让数据标注变得更加有趣,不仅是工作,而更像游戏?
Trevor:是的,我们现在有很多尝试。你可以访问 game.sapien.io,亲自体验这个游戏并标注真正的 AI 数据。你可以成为一名 AI 工作者,边玩游戏边标注真正的 AI 数据,还可以赚取积分。这款游戏非常简约,界面直观。
game.sapien.io游戏界面
数据本身也很有趣。你可能需要标注一些非常有趣的图片,比如为我们的时尚数据做标注等。我们计划支持各种不同类型的模态和数据集。我们计划随着时间的推移不断添加更多的功能。
未来蓝图:构建全球最大的人工数据标注网络
BlockBeats:除了 YGG,你们还计划在未来与哪些加密项目合作?
Trevor:我们有一些有趣的想法,比如为数据标注创建一个数据标准。目前,这一领域还比较混乱,每个客户的需求都不一样,我们必须与每个客户进行定制集成,因为他们的数据格式和数据模态各有不同。
因此,我们正在与去中心化数据领域的其他人合作,处于建立这一标准的早期阶段,并计划将其作为公共产品发布。我们在 Polymath 时也做过类似的事情,我们发布了 ERC-1400,它现在成为了以太坊上代币化的默认标准之一。
所以我们有一些关于创建标准的想法,并计划与过去帮助过我们的团队以及一些行业合作伙伴共同推动这一进程。这将使去中心化 AI 变得更加真实,也会让它更具互操作性,意味着数据可以更容易地在不同的步骤之间流动,因为没有一个人能够完成所有事情。
BlockBeats:Sapien AI 主网和移动应用的具体发布日期是什么时候?
Trevor:目前我们还没有具体的发布计划。我们现在专注于我们的核心 Web2 产品市场匹配。我们的增长非常好,现在已经有来自 71 个国家的标注员。今年我们在需求端的收入几乎每个月都在翻倍。
我们只想继续成长,不断了解我们的客户,持续为他们提供服务。随着时间的推移,我们会对各种不同的策略和技术保持开放态度。
BlockBeats:我看到 Base 联合创始人 Rowan Stone 已经加入 Sapien AI 担任首席业务开发官,Sapien AI 会建立在哪条区块链公链上?是否有发行原生代币的计划?
Trevor:这些都是很有深度的问题,我很欣赏。Rowan 非常棒,他和 Jesse Pollak 一起创立了 Base,Jesse 绝对是个传奇人物。Rowan 有着丰富的经验,在构建工业级 Web3 产品方面无人能及。在我看来,他是首屈一指的。他参与领导了「Onchain Summer」活动,这是我记忆中最成功的活动之一。
他正在帮助我们制定某些领域的市场策略。但是,就像我刚才说的,我们目前非常专注于为现有客户提供服务,这是我们的主要焦点。在选择任何 Layer 1 或其他方面,我们还没有做出任何承诺或决定。但在未来,我们会继续考虑各种可能性。
BlockBeats:Sapien AI 在未来有什么计划或目标?您希望在接下来的几年中实现哪些里程碑?
Trevor:我们的使命是将全球人类数据标注员的数量增加 100 倍,并让任何人都能轻松接入这个网络。我们想建立世界上最大的人类数据标注员网络。我们认为这将是一个非常有价值的资产,所以我们想要建立并控制它,但最终会开放它。我们希望任何人都能接入并完全无需许可。
如果我们能够构建全球最大的人工数据标注网络,这将解锁大量潜在的 AI 能力,因为我们拥有的高质量数据越多,AI 就越强大,也越能为所有人所用。
我们希望它能为所有人服务,而不仅仅是那些负担得起数百万人类标注员网络的大型语言模型公司。现在,任何人都可以使用这个网络。你可以把它看作是一个「标注即服务」的平台。
去中心化的背后:创业者的任务是解决问题
BlockBeats:最后我想问问您对整个行业的观察和看法。您认为目前加密 AI 领域还存在哪些尚未被开掘的潜力?
Trevor:我对这个领域非常兴奋,这也是我们创立 Sapien AI 的原因。这里有好的一面,也有需要防范的一面。
好的一面是,去中心化的 AI 可能会更加自主化,更加民主化,更加易于访问,也更加强大。这意味着 AI 代理可以有自己的原生货币进行交易,这也意味着你可以拥有更多的隐私,并且可以通过 ZK 技术确切地知道模型中包含什么。
在防范方面,我们面临的是一个非常可怕的世界,在这个世界里,AI 变得越来越集中化,只有政府和少数几家大型科技公司才能接触到强大的模型。这是一个相当可怕的场景。因此,开源和去中心化的 AI 是一种防御手段。
对我们来说,我们更专注于数据方面,去中心化数据。这并不意味着你不能去中心化 AI 堆栈的其他部分,比如计算和算法本身。就像 Transformer 是算法方面的第一个创新,我们已经看到了更多的创新,但总是有改进的空间。
去中心化并不意味着你应该这么做,仅仅因为你可以去中心化某些东西并不意味着你就应该这么做。最终必须要有真正的价值。但就像金融和 Web3 空间的其他部分一样,AI 肯定可以从去中心化中受益。
BlockBeats:对于想要进入加密 AI 领域的创业者,您最想给出什么建议?
Trevor:我建议要尽可能多地学习,真正理解技术栈和架构。你不一定要成为机器学习博士,但了解它的工作原理并进行研究很重要。从这里开始,随着时间的推移,你会逐渐更有机地理解问题。这是关键。
如果你不了解它的工作原理,就无法理解问题所在。而如果你不知道问题在哪里,你就不应该成为创业者,因为创业者的工作就是解决问题。
所以这与其他任何初创公司没有什么不同,你应该理解这个领域。你不必是该领域的全球顶尖专家,但要足够了解它,以便能够理解问题,然后尝试解决这些问题。