要点

  • 币安首席安全官 Jimmy Su 表示,7 月 19 日的技术中断凸显了全球互联性和对 IT 基础设施的严重依赖,也凸显了对强大且有弹性的系统的需求。

  • 币安系统的运行并未因 CrowdStrike 造成的中断而中断,虽然我们显然需要保持警惕,但由于我们的质量保证程序和可靠的部署,此类事件不太可能在币安发生。

  • 这次中断凸显了集中式单点故障架构的危险,并表明采用更多分布式系统设计(例如基于区块链的系统设计)可以增强其安全性和可靠性。

7 月 19 日的技术故障导致全球关键系统和服务中断,这清楚地提醒我们 IT 基础设施的互联性和全球性,以及我们在健康、交通、安全和卫生等重要领域对这些系统的密切依赖。金融。 

与地球上许多其他金融服务不同,币安的系统幸运地没有受到影响,并且在事件发生后没有出现停机,保证了为用户提供不间断的服务。 

复杂的系统确实会出现故障,而且总是会出现故障,而且没有任何技术平台能够完全避免突然故障。尽管如此,CrowdStrike 的崩溃凸显了全球科技生态系统架构的重要方面:高度集中化和互联性,这是一种危险的组合,更多的分布式系统设计可以部分缓解这种危险。 

Crowdstrike 中断分析

网络安全公司 CrowdStrike 是多个行业的软件提供商,是上周网络中断的幕后黑手。 CrowdStrike 的旗舰产品 Falcon Sensor 的更新出现故障,导致基于 Windows 的计算机瘫痪,并在全球范围内造成重大技术故障。币安的 Linux 基础设施没有受到影响。

在战术层面上,可能出现两个缺陷:首先,该公司的质量保证团队似乎对更新的回归测试不力,为出现严重错误创造了温床。其次,CrowdStrike 的部署没有遵循既定原则,即更新首先部署到一小部分用户,在这种情况下,这可以将中断限制在少量机器上,并将其恢复到更新前的状态而不造成重大损害。

如果部署新的登录安全规则,币安可能会发生类似的事件,导致突然无人登录;但这并没有发生,因为我们有一个极其复杂的回归测试流程,并且正在遵循分阶段的部署程序。人为错误是不可能避免的,但完全有可能实施流程以尽量减少其后果。 

加密货币市场始终保持活跃:因此我们绝对需要设计可以在必要时更新的系统,而不会给我们的用户带来风险。

系统性问题

正如我们所看到的,单个软件更新的失败可能会同时导致飞机停在停机坪上、延迟手术并导致全球交易脱轨。通过改变系统设计可以避免这一切吗?

加密货币和 Web3 领域的许多观察家正确地指出,虽然主流行业正在努力应对 CrowdStrike 中断的后果,但主要的区块链网络仍继续正常运行。这意味着这些网络所依赖的节点均不使用 Windows 软件;虽然其中一些可能受到影响,但这并没有影响整个区块链及其由于其分布式性质而运行的能力。

事实上,比特币网络的最后一次中断发生在 4,150 多天前;因此,该网络不间断运行了11年多。

正是因为节点彼此独立且可互换,所以无论 5% 或 15% 的节点发生故障都没关系:网络将保持全面运行。相比之下,7 月 19 日受影响的 850 万台设备仅占运行 Windows 的设备的 1% 左右,很难想象这种规模的中断会造成多大的混乱。 

只要全球大多数互连且相互依赖的 IT 系统依赖于集中式、单点故障架构,发生类似事件的风险就很高。当然,一些关键系统将而且必须是集中式的;然而,CrowdStrike 中断表明,全球 IT 架构内集中式和分布式元素之间平衡的转变可以为世界各地的每个人提高网络的稳健性和弹性。无论如何,对于分布式网络来说,没有任何技术比区块链更有效地创建它们。

Jimmy Su,币安首席安全官