编译 | IOSG
前言
介绍全同态加密(FHE):探索其激动人心的应用、局限性以及推动其受欢迎的最新发展。
当我(Mustafa)第一次听说 “全同态加密”(FHE)时,我想到了区块链领域为流行概念赋予长名称的倾向。这些年来,我们遇到了许多在行业中引起轰动的流行词,最近的一个是 “零知识证明”(ZKP)。
在对一些使用 FHE 构建产品的新公司进行一些调查和探索之后,我注意到了一个充满了灿烂新工具的地平线。在未来的几个月和几年中,FHE 可能会像 ZKP 一样成为席卷行业的下一个大技术。各公司正在利用在密码学和云计算各领域的最新进展,为迈向一个强大的、保护数据隐私的未来铺路。问题不在于我们是否能实现,而在于何时能实现,我相信 FHE 可能是推动数据隐私和所有权前进的关键催化剂。
“FHE 是密码学的圣杯。随着时间的推移,FHE 将重塑所有计算的结构,无论是 web2 还是 web3。”
什么是同态
Homomorphism(同态)这个术语,我们先来理解一下 “同态” 这个词的含义。追溯其根源,同态起源于数学,定义为在两个同类型代数结构之间的映射,它保留了它们之间的一个核心组成部分。
如果你像我一样更喜欢实用的定义,那么这背后的数学原理是,两个群不需要完全相同,就可以拥有相同的核心属性。例如,想象两个盛有水果的盒子,每个盒子对应一个不同的群体:
·盒子 A 包含小型水果。
·盒子 B 包含大型水果。
尽管各个水果的大小不同,但在盒子 A 中将小苹果和橙子一起榨汁可以产生与在盒子 B 中将大苹果和橙子一起榨汁相同的混合果汁味道。榨汁以产生相同的味道类似于在两个盒子之间保持一个核心组件。假设相同的风味是我们的主要关注点,那么我们从哪个盒子榨取果汁并不重要,因为果汁的多少并非我们关注的焦点。在重要的方面(味道),这两个群体是等价的,所以它们之间的差异(大小和数量)不会影响我们定义的它们的主要功能,即产生特定的果汁风味。
与同态类比,我们捕捉到了它的两个主要特征:
映射:我们在水果之间建立了联系,其中盒子 A 中的每个小水果都对应盒子 B 中的一个较大版本。因此,盒子 A 中的小苹果对应盒子 B 中的大苹果,依此类推。
操作保持:如果在盒子 A 中榨两个小水果产生了特定的风味,那么在盒子 B 中榨它们对应的较大版本也应产生相同的风味。尽管获取的果汁的大小和数量不同,但 “风味特征” 得以保持。
什么是全同态加密
将这一点与本文的中心话题联系起来,全同态加密(FHE)是一种特定的数据加密方法,它使人们能够在不暴露原始数据的情况下对加密数据进行计算。理论上,对加密数据进行的分析和计算应产生与对原始数据进行的相同的结果。通过 FHE,我们在加密数据集中的数据与原始数据集中的数据之间建立了一对一的联系。在这种情况下,核心组件的保留是能够对任一数据集中的数据执行任何计算并产生相同的结果的能力。
在这方面,许多公司已经采取预防措施来保护用户数据并维护差分隐私。公司很少在云端或其数据库中存储原始的、未加密的数据。因此,即使攻击者控制了公司的服务器,他们仍需绕过加密才能读取和访问数据。然而,当数据仅仅被加密并未被使用时,它并不具有趣味性。当公司希望对数据进行分析以获得有价值的洞见时,他们别无选择,只能解密数据来进行。当数据被解密时,它变得脆弱。然而,通过端到端加密,FHE 变得非常有用,因为我们不再需要解密数据来分析它;这只是可能性的冰山一角。
一个关键的考虑因素是公司是否应该被允许一开始就阅读和存储我们的个人信息。许多人对此的标准回应是,公司需要看到我们的数据才能为我们提供更好的服务。
如果 YouTube 不存储像我的观看和搜索历史这样的数据,算法就无法充分发挥潜力,向我展示我感兴趣的视频。因此,许多人认为在数据隐私和获得更好的服务之间的权衡是值得的。然而,有了 FHE,我们不再需要做出这种权衡。像 YouTube 这样的公司可以在加密数据上训练他们的算法,并为最终用户产生相同的结果,而不侵犯数据隐私。具体来说,他们可以同态加密像我的观看和搜索历史这样的信息,在不查看它的情况下进行分析,然后根据分析向我展示我感兴趣的视频。
FHE 是向建立一个我们的数据不再是我们自由给予组织的有价值商品的未来迈出的重要一步。
全同态加密的应用
全同态加密(FHE)如果正确应用,将是所有存储用户数据的行业的突破。我们正在观察一项可能改变我们对数据隐私的整体态度以及公司可接受的侵犯限度的技术。
让我们先来探讨 FHE 如何能改造医疗行业的数据实践。许多医院在其数据库中保存着患者的私人记录,出于道德和法律原因,这些记录必须保密。然而,这些信息对外部医学研究人员非常有价值,他们可以分析这些数据以推导出关于疾病和潜在治疗方法的重要见解。一个减缓研究进度的主要障碍是在将数据外包给研究人员时保持患者数据的完全保密。有许多方法可以使患者记录匿名化或伪匿名化,但这些方法都不完美,要么可能过多地透露某人的信息,使其可识别,要么可能没有透露足够的病例信息,使得难以获得关于疾病的准确见解。
通过 FHE,医院可以同态加密患者数据,使在云中保护患者隐私变得更加容易。医学研究人员可以在加密数据上执行计算和运行分析功能,而不会妨碍患者的隐私。由于加密数据与原始数据之间存在一对一的映射,从加密数据集获得的结果提供了可以应用于实际病例的真实见解。FHE 可以迅速推动医疗行业的进步。
全同态加密(FHE)在人工智能(AI)训练中的另一个激动人心的应用也值得关注。目前,AI 领域面临隐私问题,这阻碍了公司获取对精炼 AI 算法至关重要的大量广泛数据集的能力。培训 AI 的公司必须在使用有限的公共数据集、支付大量金钱购买私人数据集或创建数据集之间做出选择,后者对于用户较少的小公司来说尤其具有挑战性。FHE 应该能够解决阻止许多数据集提供者进入这个市场的隐私问题。因此,FHE 的改进很可能导致可用于训练 AI 的数据集数量增加。这将使 AI 训练更加经济可行且精细化,鉴于可用数据集的多样性增加。
使用 FHE,公司可以在不泄露原始数据的情况下对加密数据进行机器学习模型训练。这意味着数据所有者可以安全地分享他们的加密数据,而不必担心隐私泄露或数据滥用。同时,AI 模型训练者可以利用更多样化和全面的数据集来改进其算法,这些数据集在没有 FHE 的情况下可能无法使用。因此,全同态加密不仅提高了数据的安全性,还拓宽了 AI 研究和开发的可能性,使得 AI 技术的应用更加广泛和高效。
过去全同态加密的缺陷
尽管全同态加密(FHE)确实承诺将改变当代大数据,但我们为什么还没有看到更多的实际应用呢?
虽然 FHE 已经是人们讨论和研究多年的话题,但现实是,在实践中实现 FHE 非常困难。核心挑战在于执行 FHE 所需的计算能力。一个全同态安全的数据集可以产生与其原始数据形式相同的分析结果。这是一个挑战性的壮举,需要大量的计算速度和能力,其中许多在现有计算机上实施是不切实际的。通常在原始数据上需要几秒钟的操作,在同态加密数据集上可能需要几小时甚至几天。这种计算挑战造成了一个自我延续的循环,许多工程师推迟了 FHE 项目的承担,从而减缓了其发展并限制了其优势的完全实现。
工程师在 FHE 上面临的一个具体的计算问题是处理 “噪声误差”。在对同态加密数据集进行计算时,许多工程师都遇到了每次计算都会产生额外噪声或错误的情况。当只需要进行几次计算时,这是可以容忍的,但在多次分析之后,噪声可能变得如此突出,以至于原始数据变得难以理解。数据几乎丧失了。
为什么是现在
就像生成式人工智能一样,曾经被认为是有限和原始的,直到它变成主流,全同态加密(FHE)正走在类似的进步轨道上。许多行业领袖,甚至那些超越区块链领域的领袖,已经聚集起来组织对 FHE 的大量研究和开发。这导致了几个近期的行业发展,推动了这项技术进步的引人注目的叙述。
DPRIVE 项目
2021 年 3 月,微软、英特尔和美国国防高级研究计划局(DARPA)同意启动一个多年期计划,以加速全同态加密(FHE)的发展。这个名为 “虚拟环境中的数据保护”(DPRIVE)的计划标志着 FHE 的重大进展。它展示了两家专注于云计算和计算机硬件的行业巨头联合应对数据隐私问题。他们启动这个计划是为了构建能够管理 FHE 计算速度的计算机和软件,并建立精确实施 FHE 的指导方针,防止由错误使用导致的数据泄露。
作为 DPRIVE 计划的一部分,工程师们承担了通过探索方法来减少噪声至保持原始数据水平的任务,以此来减轻之前提到的 ‘噪声错误’。一种有前途的解决方案是设计大算术字大小(LAWS)数据表示。虽然传统的计算机处理器(CPU)通常使用 64 位字,但工程师们正在开发能够处理 1024 位或更多位字的 LAWS 新硬件。这种方法之所以有效,是因为研究表明较长的字直接影响信噪比。简单地说,较长的字在 FHE 中每进行一步额外计算时产生的噪声更少,允许执行更多的计算,直到达到数据丢失阈值。通过构建新硬件来应对这些挑战,参与 DPRIVE 计划的工程师大大减少了执行 FHE 所需的计算负载。
为了加速计算并接近使 FHE 速度提升 100,000 倍的目标,DPRIVE 团队开启了一个持续的旅程,设计出超越常规处理和绘图单元能力的新数据处理系统。他们开发了一种新的多指令多数据(MIMD)系统,能够同时管理多个指令和数据集。MIMD 类似于建造一条新的高速公路,而不是使用现有不适合的道路来容纳 FHE 快速、实时计算所需的流量。
DPRIVE 计划的一个有趣之处在于它在计算机数学计算中广泛使用了 ‘并行性’。这使得开发者能够同时进行多个大数字计算。你可以将并行性想象为同时部署一群数学家来处理一个巨大数学问题的不同部分,而不是让他们一个接一个地完成各自的工作。尽管同时进行多项计算有助于快速解决问题,但计算机必须进行空冷以防止过热。
2022 年 9 月,启动该计划一年半多后,微软、英特尔和 DARPA 宣布他们已成功完成 DPRIVE 计划的第一阶段。他们目前正在进行 DPRIVE 的第二阶段。
SDK 和开源库
随着众多大型公司在全同态加密(FHE)领域的先行探索,可用的软件开发套件(SDK)和开源库数量激增,这使得开发者能够基于彼此的工作进行构建。
微软宣布推出 Microsoft Seal,这是一个开源库,为开发者提供了在数据集上执行同态加密的工具。这使得更广泛的开发者能够探索 FHE,从而民主化了端到端加密和计算服务的访问。该库提供了同态加密程序的示例,并附有详细的注释,以指导开发者进行正确和安全的使用。
英特尔也推出了自己的同态加密工具包,为开发者提供工具以在云中更快地实现同态加密。英特尔设计这个工具包时保持了灵活性,确保与最新的数据处理和计算进展兼容。它包括专为格密码学定制的函数、与 Microsoft Seal 的无缝操作集成、同态加密方案的样本以及指导用户的技术文档。
谷歌的 Private Join and Compute 开源库为开发者提供了多方计算(MPC)工具。这种计算方法允许各方结合各自不同的数据集来获得共享见解,而无需向彼此暴露原始数据。Private Join and Compute 结合了来自 FHE 的密码技术与 Private Set Intersection(PSI)以优化数据保密实践。PSI 是另一种密码方法,允许拥有不同数据集的各方识别共有元素或数据点,而无需透露他们的数据。谷歌在推进数据隐私方面的方法不仅仅集中在 FHE 上;它通过将 FHE 与其他有影响力的数据实践整合,优先考虑了更广泛的 MPC 概念。
值得注意的是,针对 FHE 的声誉良好的开源库的可用性正在上升。然而,当观察到知名公司在其运营中实验这些库时,这一点变得更加引人注目。2021 年 4 月,作为著名的股票交易所和资本市场的全球技术实体,纳斯达克将 FHE 纳入其运营。纳斯达克利用英特尔的 FHE 工具和高速处理器,通过反洗钱努力和欺诈检测来应对金融犯罪。这是通过使用同态加密来识别包含敏感信息的数据集中的有价值见解和潜在的非法活动来实现的。
最近的资本募集
除了前面提到的公司进行的研究和开发外,还有几家其他公司最近获得了专注于全同态加密(FHE)的举措的大量资金。
Cornami 是一家大型技术公司,因开发专门为同态加密设计的可扩展云计算技术而闻名。他们参与了许多旨在创建比传统 CPU 更有效支持 FHE 的计算系统的努力。他们还指导旨在保护加密数据免受量子计算威胁的举措。2022 年 5 月,Cornami 宣布成功完成 C 轮融资,获得了由软银领投的 6800 万美元,使其总资本达到了 1.5 亿美元。
Zama 是区块链行业中的另一家公司,它正在构建开源同态加密工具,开发者可以利用这些工具使用 FHE、区块链和 AI 构建激动人心的应用程序。Zama 已经构建了一个全同态以太坊虚拟机(fhEVM)作为其产品供应的一部分。这种智能合约协议使链上交易数据在处理过程中保持加密。探索 Zama 库的各种应用的开发者对其性能印象深刻,即使在复杂的用例中也是如此。Zama 在 2022 年 2 月成功完成了由 Protocol Labs 领投的 4200 万美元 A 轮融资,使其总资本提升到了 5000 万美元。
Fhenix 也是一个新兴项目,它正在将 FHE 带入区块链。他们的目标是将 FHE 应用扩展到隐私支付之外,为 FHE 在去中心化金融(DeFi)、桥接、治理投票和 Web3 游戏等领域的激动人心的用例打开大门。2023 年 9 月,Fhenix 宣布完成由 Multicoin Capital 和 Collider Ventures 领投的 700 万美元种子轮融资。
接下来会发生什么
多年来,全同态加密(FHE)一直是一个承诺提供强大端到端加密的想法,预示着数据隐私强大的未来。最近的发展开始将 FHE 从理论梦想转变为现实应用。虽然各种公司正在竞争成为首个实现强大、功能完备的 FHE 版本的先驱,但许多公司正合作共同导航这项强大技术的复杂性。这种合作精神通过他们实施各种跨团队项目和开发与其他库集成的开源库而显现。
根据我的发现,围绕 FHE 的讨论似乎影响深远。在接下来的几周里,我很高兴能够更深入地探讨,分享我对 FHE 研究的更多见解。具体来说,我渴望探索更多关于以下话题的内容:
FHE 的新兴应用:
·零知识证明(ZKPs)与 FHE 之间的相互作用。
·将 FHE 与私有集合交集(PSI)整合,以推进安全的多方计算(MPC)。
·像 Zama 和 Fhenix 这样的新公司,正在 FHE 领域中引领发展。