作者:JP Sanday, Steve Sloane, Naomi Pilosof Ionita, Derek Xiao

编译:深潮TechFlow

经济中的每份工作都可以看作是由人类和机器共同完成的任务集合。多年来,软件逐渐承担了越来越多的任务,但即使在今天,人类仍然负责绝大多数业务流程。在每个职能领域,人员成本远远高于软件支出。

AI 智能体有望决定性地改变这种工作平衡。与过去主要处理低级、顺序且可机械执行任务的软件不同,新的认知架构使智能体能够动态地自动化端到端流程。这不仅是能够阅读和写作的 AI,而是能够决定应用程序逻辑流程并代替你采取行动的 AI。

它们是当今企业中大语言模型 (LLM) 的最大机遇。在另一篇文章中,我们讨论了这些新“智能体”的定义以及使其成为可能的设计模式。在这里,我们将探讨它们如何在企业中应用,推动企业自动化的新纪元。

机器人流程自动化 (Robotic Process Automation,RPA) 再现?

如果这让你觉得似曾相识,那是因为在过去十年中,像 UiPath 和 Zapier 这样的公司一直在以“机器人自动化”为名推销类似的愿景。

UiPath 是首个进入市场的公司。这家机器人流程自动化 (RPA) 巨头的核心业务是通过屏幕抓取和 GUI 自动化,使“机器人”能够记录用户操作,并模仿这些顺序步骤来自动化流程,例如提取文档信息、移动文件夹、填写表单和更新数据库。

后来,像 Zapier 这样的 iPaaS 提供商出现,采用了一种更轻量级的“API 自动化”方法来提高生产力。该平台通过预构建的 API 集成和 webhooks 提供更稳定的自动化,尽管这种方法将公司的范围限制在 web 应用程序自动化,而 UiPath 则能够跨不同软件自动化流程,包括那些可能不支持 API 的软件。

UiPath 和 Zapier 证明了市场对于可组合、基于规则的横向自动化平台的需求,这些平台可以解决企业在部门或行业特定软件系统内外的长尾流程问题。然而,随着企业扩大基于机器人的自动化规模,这些传统架构的能力与其所承诺的自主性之间的差距开始显现,特别是在以下方面:

  • (仍然)需要大量人力和手动操作。尽管关于机器人和自动化的讨论很多,但建立和维护自动化的过程仍然非常繁琐。事实上,UiPath 每赚 1 美元,就有 7 美元流向像 EY 这样的实施和咨询合作伙伴,导致部署和维护周期既漫长又昂贵。

  • UI 自动化脆弱或 API 集成有限。当软件的 UI 发生变化时,UI 自动化常常中断,而 API 虽然更稳定,但集成数量较少,尤其是对于传统或本地软件。

  • 难以处理非结构化数据。非结构化和半结构化数据占企业数据的 80%,但基于顺序的自动化几乎无法智能处理这些数据。智能文档处理 (IDP) 解决方案如 Hyperscience 和 Ocrolus 试图在这方面取得进展,但在处理简单的“提取和转换”文档用例时,仍在边缘情况和异常处理上遇到困难。

此外,传统的 RPA 和 iPaaS 解决方案即使尝试整合大语言模型 (LLM),仍然受限于其确定性架构。目前,UiPath 的 AI 解决方案 Autopilot 和 Zapier 的 AI Actions 仅在子智能体设计模式中使用 LLM,例如 (1) 文本到动作,或 (2) 用于语义搜索、综合或一次性生成的节点。

这些 AI 功能确实很强大。它们使得业务部门而非 IT 部门能够掌控自动化规则,通过视觉 Transformer 而非 OCR 实现更强大的对象检测和识别,并通过 RAG 进行强大的数据提取和转换。然而,它们仍然未能实现 LLM 在流程自动化中的更具变革性的用例,我们将在接下来探讨这些用例。

AI 智能体作为决策引擎的角色

智能体本质上有很大不同。它们作为决策引擎,位于应用程序控制流的核心位置,这与当今 RPA 机器人的硬编码逻辑,甚至是定义了生成式 AI 革命第一波的 RAG 应用程序形成鲜明对比。它们首次实现了适应性、多步骤操作、复杂推理和强大的异常处理。

我们通过一个发票对账的例子来说明其影响。下面是一个简化的流程图,展示了如何将新发票 PDF 与公司的总账进行匹配(类似于实施工程师为 RPA 进行的可视化建模):

显然,工作流程的复杂性迅速增长,几乎不可能在前三个决策集中涵盖所有相关的边缘情况和例外。通常情况下,负责机械执行这一工作流程的 RPA 机器人会出错,并将部分匹配或缺失的条目上报给人类——这或许解释了为什么如今大多数企业每月仍然雇佣数百名员工来完成这项任务,而不是自动化这一高度人工的过程。

然而,当应用于相同的工作流程时,智能体的性能要高得多,能够实现以下功能:

  • 适应新环境。智能体能够智能识别并适应新的数据源、发票格式、命名规则、账户号码,甚至是基于基本推理和业务背景的政策变化,这一切都无需重新编程或依赖明确的标准操作程序(SOP)。

  • 支持多步骤操作。在发票金额不匹配时,智能体可以执行多步骤调查,例如扫描供应商的最新电子邮件以查找可能的价格变动通知。

  • 具备复杂推理能力。例如,一家公司需要将国际供应商的发票与其账本进行对账。这一过程涉及多种因素的考虑,包括发票货币、账本货币、交易日期、汇率波动、跨境费用和银行费用,所有这些因素都必须被检索并计算在一起,以完成付款对账。智能体能够胜任这类智能操作,而 RPA 机器人可能只会将此问题上报给人类。

  • 处理不确定性。智能体能够处理不确定性,例如利用上下文线索(如匹配总订单价值以及历史发票的时间和频率)来应对个别项目的舍入误差或不可读数字。

AI 智能体市场现状

智能体不再只是科幻小说中的概念。尽管这一领域仍在发展,从初创公司到财富500强企业都已经在大规模地购买和使用这些系统。

当前的智能体市场格局可以通过两个关键维度来展现:

  • 领域特定性:这包括为医疗等垂直行业或客户支持等部门设计的高度专业化智能体,以及具有广泛、通用能力的水平智能体平台。

  • 大语言模型自主性:这表明语言模型在独立规划和指导应用逻辑方面的能力。

这两个因素构成了我们正在研究的 AI 智能体市场地图的两个轴,如下所示。

在市场地图的右上角,最具通用性和可扩展性的智能体包括:

  • 企业级智能体。可扩展的智能体平台使企业能够通过自然语言的 SOP 或类似于新员工手册的规则,来构建和管理跨多个功能和工作流的智能体。这些平台特别吸引那些希望获得广泛适用智能体能力的集中 IT 采购者,而不是为每个业务单元提供单独的解决方案。例如,Sema4 的发票对账智能体的核心处理能力可以用于财务、采购和运营中的各种数据验证任务。

尽管如此,大多数企业级智能体采用“轨道上的智能体”架构,这要求智能体在每个新流程中都基于特定工作流的一组预定义操作、业务上下文和保护措施。尽管有些数据基础设施可以在不同工作流之间共享,但这些平台的广泛特性更多地来自于累积使用案例,而非人类般的通用性。因此,该领域的一些参与者已开始专注于特定领域,以获得更大的产品和市场推广优势(例如,Brevian 专注于客户支持和安全,Ema 专注于销售和支持领域)。

  • 浏览器智能体。MultiOn、Induced Twin等网页智能体代表了另一种广泛且可泛化的智能体类型。大多数采用“通用 AI 智能体”设计,利用在各种软件界面及其底层代码库上训练的视觉 Transformer 模型。这使智能体能够“理解”网页组件及其功能和交互,从而实现网页浏览、视觉用户界面操作和文本输入的自动化。

然而,尽管这些智能体在通用性上有所提高,但往往在一致性上有所牺牲。目前,大多数智能体主要针对简单的生产力或电子商务应用,努力实现企业级性能。由于缺乏更受限的问题空间和适当的数据支撑及保护措施,更可靠的浏览器智能体必须克服一些关键挑战,比如管理复杂的动作和观察空间、在多个页面之间保持上下文以及解释多样化的网页界面。

  • AI 支持的服务。企业对智能体能力的需求目前超过了客户自行生产智能体的能力,尤其是因为“轨道上的智能体”设计需要广泛的数据基础设施和保护措施才能在实践中有效。这正是 Distyl 和 Agnetic 等公司发挥作用的领域,它们通过提供类似“AI 版 Palantir”的前置工程服务来填补这一空白。类似于 Palantir 的 Foundry,这些公司可以在不同客户之间重复利用模块化系统基础设施,以逐步重新平衡平台与服务的比例。

但并不是所有智能体都追求横向和可泛化。我们越来越多地看到特定领域和工作流的智能体涌现,这些智能体通过限定解决问题的类型来提高可靠性:

  • 垂直领域智能体。垂直领域智能体最有前景的机会在于那些目前由人类按照标准操作程序 (SOP) 或规则手册处理的手动、程序驱动的流程。许多企业已经将这些功能外包给业务流程外包 (BPO) 公司或承包商。这些任务通常对基于规则的自动化来说过于复杂,但又不足以挑战或区分,从而无法证明需要内部知识工作者。主要类别包括客户支持、招聘、某些软件开发任务如代码审查、测试和维护、冷销售外拨以及安全操作。

  • AI 助理。另一种缩小智能体关注范围的方法是通过任务的特定性,而非领域的特定性。AI 助理执行更简单、更注重生产力的任务,而不是像企业和垂直领域智能体那样承担复杂的端到端流程。常见的基本任务包括简单的网页研究、知识提取、总结,以及针对临时任务的非结构化数据转换,例如聊天 PDF 或从 Gong 转录中提取功能请求。

最后,值得注意的是,有一些广泛的生成式 AI 解决方案,虽然本身不是智能体,但在预算上与智能体解决方案竞争,有时甚至参与相同的工作流程。这些解决方案主要基于 RAG 架构构建,不在应用程序控制流中,因此无法完全模拟智能体的人类推理。然而,它们的能力仍然能够显著提高服务自动化,同时为企业提供控制权。

  • 垂直领域 AI。语义搜索和非结构化数据转换是垂直工作流中的强大基础功能。例如,医疗保健 AI 自动化平台 Tennr 从传真、PDF、电话和其他杂乱的来源中提取非结构化数据,并将其输入诊所的 EHR 系统,以畅通转诊处理流程,减少员工手动输入数据的需求。工业 AI 是另一个例子,它采用类似的方法来自动化制造商的报价流程。

  • RAG 作为服务。像 Danswer 和 Gradient 这样的 RAG 作为服务的公司,是垂直语义搜索和非结构化数据转换公司的横向对应,为客户提供查询非结构化数据源(如 PDF)、提取数据并将结果录入更结构化的数据库或记录系统的能力。

  • 企业级搜索。Glean 、 Perplexity 和 Sana 提供语义查询,以索引和检索相关文档为目的,从而更好地管理组织内的知识并打破企业数据孤岛。

企业自动化的未来

生成式 AI 的第二波浪潮将由能够替代人类思考和行动的智能体定义,而不仅限于阅读和写作。随着这些架构的成熟,它们将成为 AI 接管服务行业的强大催化剂。在 Menlo,我们很期待与那些正在构建这一未来的团队会面。如果你正在智能体领域进行开发,我们非常乐意与您交流。

JP Sanday (jp@menlovc.com)

Steve Sloane (steve@menlovc.com)

Naomi Ionita (naomi@menlovc.com)

Derek Xiao (derek@menlovc.com)