Puntos principales:

  • Según el Director de Seguridad de Binance, Jimmy Su, la falla tecnológica del 19 de julio destaca la interconexión global y la dependencia crítica de la infraestructura de TI, enfatizando la necesidad de sistemas robustos y resilientes.

  • Los sistemas de Binance aseguraron cero tiempo de inactividad durante las interrupciones inducidas por CrowdStrike. Aunque debemos mantenernos vigilantes, un incidente similar en Binance es poco probable debido a nuestros robustos procedimientos de aseguramiento de calidad y despliegue.

  • La interrupción subraya los peligros de las arquitecturas centralizadas con puntos únicos de falla, sugiriendo que un cambio hacia diseños de sistemas más distribuidos, como los basados en blockchain, podría mejorar la seguridad y la fiabilidad.

La interrupción mundial en sistemas y servicios críticos que resultó de la falla tecnológica del 19 de julio es un recordatorio claro de cuán interconectada y verdaderamente global es nuestra infraestructura de TI, así como de la profundidad de nuestra dependencia de estos sistemas en áreas críticas como la salud, el transporte, la seguridad y las finanzas.

Afortunadamente, a diferencia de muchos otros servicios financieros en todo el mundo, los sistemas de Binance no se vieron afectados, experimentando cero tiempo de inactividad tras el accidente y asegurando un servicio ininterrumpido para nuestros usuarios.

Los sistemas complejos fallan y fallarán, y ninguna plataforma tecnológica está 100% a salvo de fallas repentinas. Sin embargo, el colapso de CrowdStrike subraya algo importante sobre la arquitectura del ecosistema tecnológico global: una combinación peligrosa de altos niveles de centralización e interconexión, algo que un diseño de sistema más distribuido podría ayudar a mitigar.

Qué salió mal con CrowdStrike

Las interrupciones de la semana pasada fueron causadas por la firma de ciberseguridad CrowdStrike, que suministra software a muchas industrias. Ocurrió un mal funcionamiento en una actualización del producto insignia de CrowdStrike, Falcon Sensor, que dejó fuera de servicio computadoras operadas por Windows y resultó en fallas tecnológicas significativas a nivel mundial. La infraestructura basada en Linux de Binance no se vio afectada.

A nivel táctico, probablemente ocurrieron dos cosas. En primer lugar, el equipo de aseguramiento de calidad de la firma parece haber hecho un mal trabajo en las pruebas de regresión de la actualización, permitiendo que se colara un error crítico. En segundo lugar, el despliegue de CrowdStrike no siguió un principio de escala de grises establecido, donde una actualización se lanza primero a una pequeña subsección de usuarios. Si se hubiera hecho de esa manera, solo un pequeño porcentaje de máquinas habría fallado, y sería posible revertir la actualización con mucho menos daño.

En el contexto de Binance, un percance similar podría verse así: se despliega una nueva regla de seguridad para iniciar sesión, y de repente, nadie puede iniciar sesión. Sin embargo, esto no sucede porque tenemos un proceso de pruebas de regresión muy exhaustivo y seguimos procedimientos de despliegue en escala de grises. No se puede evitar el error humano, pero se pueden implementar procesos para minimizar sus impactos.

Los mercados de criptomonedas nunca duermen, por lo que es importante que construyamos sistemas que puedan actualizarse cuando sea necesario y sin crear riesgos para nuestros usuarios.

Un problema sistémico

Como hemos presenciado, una falla en una sola actualización de software puede llevar a vuelos cancelados, cirugías retrasadas y transacciones colgadas en todos los rincones del mundo al mismo tiempo. ¿Podría esto evitarse con un diseño de sistema diferente?

Muchos observadores en el espacio cripto y Web3 señalaron con razón que, mientras las industrias tradicionales luchaban con las secuelas de la caída de CrowdStrike, las principales redes blockchain continuaban operando normalmente. Esto no significa que ninguno de los nodos en los que estas redes confían use software de Windows. Es probable que algunos de ellos se hayan visto afectados, pero esto fue irrelevante para la blockchain en general y su capacidad de funcionar, gracias a la naturaleza distribuida del sistema.

De hecho, el último tiempo de inactividad de la red Bitcoin ocurrió hace más de 4150 días, lo que equivale a más de 11 años sin interrupciones.

Precisamente porque los nodos son independientes entre sí e intercambiables, no importa si el 5% o el 15% de ellos fallan: la red seguirá funcionando plenamente. En contraste, los 8.5 millones de dispositivos afectados el 19 de julio solo constituyen alrededor del 1% de las máquinas que funcionan con Windows; solo podemos imaginar la escala del caos que podría causar una interrupción similar de mayor escala.

Mientras la mayoría de los sistemas informáticos interconectados e interdependientes del mundo dependan de una arquitectura centralizada con puntos únicos de falla, es probable que experimentemos incidentes similares. Por supuesto, algunos sistemas críticos serán y deben ser centralizados. Sin embargo, la falla de CrowdStrike sugiere que cambiar el equilibrio de elementos centralizados y distribuidos en la arquitectura de TI del mundo podría llevar a redes más robustas y resilientes para todos en el mundo, y en cuanto a redes distribuidas, no hay mejor tecnología para construirlas que blockchain.

Jimmy Su, Director de Seguridad de Binance

También podría interesarte…

4 herramientas críticas para mejorar la seguridad de tu cuenta de Binance

De nuestro CTO: Cómo estamos construyendo la tecnología más centrada en el usuario de la industria