Ключевые выводы

  • По словам директора по безопасности Binance Джимми Су, технологический сбой 19 июля, который подчеркивает глобальную взаимосвязь и критическую зависимость от ИТ-инфраструктуры, также подчеркивает необходимость в надежных и отказоустойчивых системах.

  • Работа систем Binance не была прервана сбоями, вызванными CrowdStrike, и хотя нам, очевидно, необходимо сохранять бдительность, такой инцидент вряд ли произойдет в Binance из-за наших процедур обеспечения качества и надежного развертывания.

  • Этот сбой подчеркивает опасность централизованных архитектур с единой точкой отказа и предполагает, что внедрение более распределенных системных конструкций, например, на основе блокчейна, может повысить их безопасность и надежность.

Сбои в работе критически важных систем и служб по всему миру, возникшие в результате технологического сбоя 19 июля, являются ярким напоминанием о взаимосвязанности и глобальном характере нашей ИТ-инфраструктуры, а также о нашей тесной зависимости от этих систем в таких важных областях, как здравоохранение, транспорт, безопасность и финансы. 

В отличие от многих других финансовых услуг на планете, системы Binance, к счастью, не пострадали и не столкнулись с простоями после инцидента, гарантируя бесперебойное обслуживание своих пользователей. 

Сложные системы случаются и всегда будут выходить из строя, и ни одна технологическая платформа не застрахована полностью от внезапного сбоя. Тем не менее, крах CrowdStrike выдвигает на первый план важные аспекты архитектуры глобальной технологической экосистемы: ее высокую централизацию и взаимосвязанность — опасное сочетание, которое можно частично смягчить с помощью более распределенной конструкции системы. 

Анализ сбоя Crowdstrike

Компания по кибербезопасности CrowdStrike, поставщик программного обеспечения для многих отраслей, стояла за сбоями в работе на прошлой неделе. В обновлении флагманского продукта CrowdStrike, Falcon Sensor, произошел сбой, который вывел из строя компьютеры под управлением Windows и вызвал серьезные технологические сбои во всем мире. Инфраструктура Linux Binance не пострадала.

На тактическом уровне вероятны две ошибки: во-первых, команда обеспечения качества компании, судя по всему, плохо протестировала регрессию обновлений, что создает питательную среду для появления критической ошибки. Во-вторых, развертывание CrowdStrike не соответствовало установленному принципу, согласно которому обновление сначала развертывается на небольшой подгруппе пользователей, что в данном случае позволило бы ограничить простои небольшим количеством машин и восстановить их состояние до обновления. не причинив серьезного ущерба.

Аналогичный инцидент мог бы произойти на Binance, если бы было введено новое правило безопасности, регулирующее вход в систему, в результате чего внезапно никто не смог бы войти в систему; но этого не происходит, потому что у нас имеется чрезвычайно сложный процесс регрессионного тестирования и мы следуем процедурам поэтапного развертывания. Невозможно избежать человеческих ошибок, но вполне возможно внедрить процессы, минимизирующие их последствия. 

Криптовалютные рынки остаются активными постоянно: поэтому нам абсолютно необходимо разрабатывать системы, которые можно будет обновлять при необходимости, не создавая риска для наших пользователей.

Системная проблема

Как мы видели, сбой одного-единственного обновления программного обеспечения может одновременно привести к остановке самолетов, задержке операций и срыву транзакций по всему миру. Можно ли всего этого избежать, изменив конструкцию систем?

Многие наблюдатели в сфере криптовалют и Web3 справедливо отмечают, что, хотя основные отрасли боролись с последствиями сбоя CrowdStrike, основные сети блокчейнов продолжали работать в обычном режиме. Это означает, что ни один из узлов, от которых зависят эти сети, не использует программное обеспечение Windows; хотя вполне вероятно, что некоторые из них были затронуты, это не повлияло на блокчейн в целом и его способность работать из-за его распределенного характера.

Фактически, последний сбой в сети Биткойн произошёл более 4150 дней назад; Таким образом, сеть работала бесперебойно более 11 лет.

Именно потому, что узлы независимы друг от друга и взаимозаменяемы, не имеет значения, выйдут из строя 5% или 15% из них: сеть останется полностью работоспособной. Напротив, 8,5 миллионов устройств, пострадавших 19 июля, составляют лишь около 1 процента машин под управлением Windows, и трудно представить масштаб хаоса, который может вызвать сбой такого масштаба. 

Пока большинство взаимосвязанных и взаимозависимых ИТ-систем по всему миру полагаются на централизованную архитектуру с единой точкой отказа, риск подобных инцидентов высок. Конечно, некоторые критически важные системы будут и должны быть централизованы; Тем не менее, сбой CrowdStrike предполагает, что изменение баланса между централизованными и распределенными элементами в глобальной ИТ-архитектуре может повысить надежность и отказоустойчивость сетей для всех во всем мире. В любом случае для распределенных сетей ни одна технология их создания не является столь эффективной, как технология блокчейн.

Джимми Су, директор по безопасности Binance