Panne de CrowdStrike/Microsoft : le danger des points de défaillance uniques

Points clés à retenirSelon Jimmy Su, directeur de la sécurité de Binance, la panne technologique du 19 juillet, qui met en évidence l’interconnexion mondiale et la dépendance critique à l’égard de l’infrastructure informatique, souligne aussi la nécessité de systèmes solides et résilients.
Le fonctionnement des systèmes de Binance n’a pas été interrompu par les perturbations causées par CrowdStrike, et même si nous devons évidemment rester vigilants, un tel incident a peu de risque de se produire chez Binance en raison de nos procédures d’assurance qualité et de déploiement fiables.
La panne met en évidence les dangers des architectures centralisées à point de défaillance unique et suggère qu’adopter des conceptions de systèmes plus distribuées, par exemple, basées sur la blockchain, pourrait renforcer leur sécurité et leur fiabilité.
Les perturbations des systèmes et services critiques du monde entier résultant de la défaillance technologique du 19 juillet sont un rappel brutal de l’interconnexion et du caractère mondial de notre infrastructure informatique, ainsi que de notre dépendance étroite à l’égard de ces systèmes dans des domaines essentiels tels que ceux de la santé, des transports, de la sécurité et de la finance. 
Contrairement à beaucoup d’autres services financiers de la planète, les systèmes de Binance n’ont heureusement pas été touchés et n’ont subi aucun temps d’arrêt suite à l’incident, garantissant un service ininterrompu à ses utilisateurs. 
Les systèmes complexes connaissent, et connaîtront toujours, des défaillances, et aucune plateforme technologique n’est totalement à l’abri d’une panne soudaine. Néanmoins, la débâcle de CrowdStrike met en lumière des facettes importantes de l’architecture de l’écosystème technologique mondial : sa centralisation et son interconnexion élevées, une combinaison dangereuse qu’une conception de système plus distribuée pourrait en partie atténuer. 
Analyse de la panne de CrowdstrikeC’est l’entreprise de cybersécurité CrowdStrike, un fournisseur de logiciels pour de nombreux secteurs, qui est à l’origine des pannes de la semaine dernière. Un dysfonctionnement s’est produit dans une mise à jour du produit phare de CrowdStrike, Falcon Sensor, mettant hors service les ordinateurs fonctionnant sous Windows et entraînant d’importantes défaillances technologiques dans le monde entier. L’infrastructure sous Linux de Binance n’a pas été affectée.
Au niveau tactique, deux défectuosités apparaissent probables : tout d’abord, l’équipe d’assurance qualité de l’entreprise semble avoir mal testé la régression de la mise à jour, créant un terrain propice à l’apparition d’une erreur critique. Ensuite, le déploiement de CrowdStrike n’a pas suivi le principe établi selon lequel la mise à jour est d’abord déployée chez un petit sous-groupe d’utilisateurs, ce qui aurait permis dans ce cas de limiter la panne à un petit nombre de machines et d’en restaurer l’état avant la mise à jour sans causer de gros dégâts.
Un incident comparable pourrait survenir chez Binance si une nouvelle règle de sécurité régissant la connexion était déployée, suite à quoi subitement, plus personne ne pouvait se connecter ; mais cela n’arrive pas, car nous avons mis en place un processus de test de régression extrêmement pointu et suivons des procédures de déploiement échelonné. Il est impossible d’éviter les erreurs humaines, mais il est parfaitement possible de mettre en œuvre des processus afin de réduire au maximum leurs conséquences. 
Les marchés crypto restent actifs en permanence : nous devons donc absolument concevoir des systèmes pouvant être mis à jour dès que cela est nécessaire sans créer de risque pour nos utilisateurs.
Un problème systémiqueComme nous l’avons constaté, la défaillance d’une seule mise à jour logicielle peut simultanément bloquer des avions sur les tarmacs, retarder des opérations chirurgicales et faire échouer des transactions aux quatre coins de la planète. Tout cela pourrait-il être évité en changeant la conception des systèmes ?
De nombreux observateurs évoluant dans l’espace crypto et du Web3 ont fait remarquer à juste titre que pendant que les secteurs classiques se débattaient avec les conséquences de la panne de CrowdStrike, les principaux réseaux de blockchain continuaient de fonctionner normalement. Cela signifie qu’aucun des nœuds sur lesquels reposent ces réseaux n’utilise de logiciel Windows ; même s’il est probable que certains d’entre eux aient été affectés, cela n’a pas eu de conséquence sur la blockchain dans son ensemble et sur sa capacité à fonctionner grâce à sa nature distribuée.
En réalité, la dernière coupure du réseau Bitcoin s’est produite il y a plus de 4 150 jours ; le réseau a donc fonctionné de manière ininterrompue pendant plus de 11 ans.
C’est précisément parce que les nœuds sont indépendants les uns des autres et interchangeables qu’il importe peu que 5 % ou 15 % d’entre eux tombent en panne : le réseau restera totalement opérationnel. Par opposition, les 8,5 millions d’appareils touchés le 19 juillet ne représentent qu’environ 1 % des machines fonctionnant sous Windows, et il est difficile d’imaginer l’ampleur du chaos qu’une panne de ce type à plus grande échelle pourrait provoquer. 
Tant que la majorité des systèmes informatiques interconnectés et interdépendants du monde entier reposent sur une architecture centralisée à point de défaillance unique, le risque d’incidents similaires est élevé. Bien entendu, certains systèmes critiques seront et devront être centralisés ; pourtant, la panne de CrowdStrike laisse croire qu’un changement de l’équilibre entre les éléments centralisés et distribués au sein de l’architecture informatique mondiale pourrait améliorer la robustesse et la résilience des réseaux pour tous, dans le monde entier. En tout cas, pour les réseaux distribués, aucune technologie n’est aussi efficace que celle de la blockchain pour les créer.
Jimmy Su, directeur de la sécurité de Binance
Panne de CrowdStrike/Microsoft : le danger des points de défaillance uniques

.css-1iqe90x{box-sizing:border-box;margin:0;min-width:0;color:#EAECEF;}Points clés à retenir

Analyse de la panne de Crowdstrike

Un problème systémique

最新ニュース

Points clés à retenir