Bài học chính

  • Theo Giám đốc An ninh của Binance, Jimmy Su, sự cố ngừng hoạt động công nghệ ngày 19 tháng 7, trong đó nêu bật tính kết nối toàn cầu và sự phụ thuộc quan trọng vào cơ sở hạ tầng CNTT, cũng nhấn mạnh sự cần thiết của các hệ thống mạnh mẽ và linh hoạt.

  • Hoạt động của các hệ thống của Binance không bị gián đoạn do sự gián đoạn do CrowdStrike gây ra và mặc dù chúng tôi rõ ràng cần phải cảnh giác nhưng sự cố như vậy khó có thể xảy ra tại Binance do quy trình đảm bảo chất lượng và quá trình triển khai đáng tin cậy của chúng tôi.

  • Sự cố ngừng hoạt động nêu bật sự nguy hiểm của các kiến ​​trúc tập trung, một điểm lỗi và gợi ý rằng việc áp dụng nhiều thiết kế hệ thống phân tán hơn, chẳng hạn như dựa trên blockchain, có thể nâng cao tính bảo mật và độ tin cậy của chúng.

Sự gián đoạn đối với các hệ thống và dịch vụ quan trọng trên toàn thế giới do sự cố công nghệ ngày 19 tháng 7 là một lời nhắc nhở rõ ràng về tính chất liên kết và toàn cầu của cơ sở hạ tầng CNTT của chúng ta cũng như sự phụ thuộc chặt chẽ của chúng ta vào các hệ thống này trong các lĩnh vực thiết yếu như y tế, giao thông, an ninh và tài chính. 

Không giống như nhiều dịch vụ tài chính khác trên hành tinh, hệ thống của Binance may mắn không bị ảnh hưởng và không có thời gian ngừng hoạt động sau sự cố, đảm bảo dịch vụ không bị gián đoạn cho người dùng. 

Các hệ thống phức tạp sẽ và sẽ luôn thất bại và không có nền tảng công nghệ nào hoàn toàn an toàn trước sự cố bất ngờ. Tuy nhiên, sự cố CrowdStrike nêu bật các khía cạnh quan trọng của kiến ​​trúc hệ sinh thái công nghệ toàn cầu: tính tập trung cao độ và tính kết nối cao, một sự kết hợp nguy hiểm mà thiết kế hệ thống phân tán hơn có thể giảm thiểu phần nào. 

Phân tích sự cố ngừng hoạt động của Crowdstrike

Công ty an ninh mạng CrowdStrike, nhà cung cấp phần mềm cho nhiều ngành công nghiệp, đứng sau vụ ngừng hoạt động tuần trước. Đã xảy ra sự cố trong bản cập nhật cho sản phẩm chủ lực của CrowdStrike, Falcon Sensor, làm hỏng các máy tính chạy Windows và gây ra những lỗi công nghệ lớn trên toàn thế giới. Cơ sở hạ tầng Linux của Binance không bị ảnh hưởng.

Ở cấp độ chiến thuật, có thể xuất hiện hai sai sót: thứ nhất, nhóm đảm bảo chất lượng của công ty dường như đã kiểm tra kém quá trình hồi quy cập nhật, tạo cơ hội cho một lỗi nghiêm trọng xuất hiện. Thứ hai, việc triển khai CrowdStrike không tuân theo nguyên tắc đã thiết lập, theo đó bản cập nhật được triển khai lần đầu tiên cho một nhóm nhỏ người dùng, trong trường hợp này có thể hạn chế tình trạng ngừng hoạt động ở một số ít máy và khôi phục trạng thái của họ trước khi cập nhật mà không gây ra thiệt hại lớn.

Một sự cố tương tự có thể xảy ra tại Binance nếu quy tắc bảo mật mới quản lý việc đăng nhập được triển khai, do đó đột nhiên không ai có thể đăng nhập; nhưng điều này không xảy ra vì chúng tôi đã áp dụng quy trình thử nghiệm hồi quy cực kỳ phức tạp và đang tuân theo các quy trình triển khai theo từng giai đoạn. Không thể tránh khỏi sai sót của con người, nhưng hoàn toàn có thể thực hiện các quy trình để giảm thiểu hậu quả của chúng. 

Thị trường tiền điện tử luôn hoạt động: vì vậy chúng tôi nhất thiết phải thiết kế các hệ thống có thể cập nhật bất cứ khi nào cần thiết mà không tạo ra rủi ro cho người dùng.

Một vấn đề mang tính hệ thống

Như chúng ta đã thấy, lỗi của một bản cập nhật phần mềm có thể đồng thời khiến máy bay hạ cánh trên đường băng, trì hoãn các cuộc phẫu thuật và làm trật bánh các giao dịch trên toàn cầu. Liệu tất cả điều này có thể tránh được bằng cách thay đổi thiết kế của hệ thống?

Nhiều nhà quan sát trong lĩnh vực tiền điện tử và Web3 đã chỉ ra một cách đúng đắn rằng trong khi các ngành công nghiệp chính thống phải vật lộn với hậu quả của sự cố ngừng hoạt động của CrowdStrike, thì các mạng blockchain lớn vẫn tiếp tục hoạt động như bình thường. Điều này có nghĩa là không có nút nào trong số các nút mà mạng này dựa vào sử dụng phần mềm Windows; mặc dù có khả năng một số trong số chúng đã bị ảnh hưởng, nhưng điều này không ảnh hưởng đến toàn bộ chuỗi khối và khả năng hoạt động của nó do tính chất phân tán của nó.

Trên thực tế, lần ngừng hoạt động cuối cùng của mạng Bitcoin đã xảy ra hơn 4.150 ngày trước; do đó, mạng lưới hoạt động liên tục trong hơn 11 năm.

Chính vì các nút độc lập với nhau và có thể hoán đổi cho nhau nên việc 5% hay 15% trong số chúng bị lỗi không thành vấn đề: mạng sẽ vẫn hoạt động đầy đủ. Ngược lại, 8,5 triệu thiết bị bị ảnh hưởng vào ngày 19 tháng 7 chỉ chiếm khoảng 1% số máy chạy Windows và thật khó để tưởng tượng quy mô hỗn loạn mà sự cố ngừng hoạt động kiểu này có thể gây ra ở quy mô lớn hơn. 

Chừng nào phần lớn các hệ thống CNTT được kết nối và phụ thuộc lẫn nhau trên toàn thế giới đều dựa vào kiến ​​trúc tập trung, một điểm lỗi thì nguy cơ xảy ra sự cố tương tự là rất cao. Tất nhiên, một số hệ thống quan trọng sẽ và phải được tập trung hóa; Tuy nhiên, sự cố ngừng hoạt động của CrowdStrike cho thấy rằng sự thay đổi trong sự cân bằng giữa các yếu tố tập trung và phân tán trong kiến ​​trúc CNTT toàn cầu có thể cải thiện tính mạnh mẽ và khả năng phục hồi của mạng cho mọi người trên toàn thế giới. Trong mọi trường hợp, đối với các mạng phân tán, không có công nghệ nào hiệu quả bằng blockchain trong việc tạo ra chúng.

Jimmy Su, Giám đốc An ninh Binance