Le réseau Zilliqa a connu une perturbation le 18 décembre 2023 ayant entraîné plusieurs heures d'arrêt.

Cette situation a entraîné l'interruption temporaire de la production de blocs avant que l'équipe technique ne rétablisse toutes les fonctionnalités du réseau plus tard dans la journée.

Suite à cette perturbation, l'équipe technique de Zilliqa a mené une analyse des causes profondes de cet événement et a découvert qu'il s'agissait du résultat d'un problème d'incohérence critique causé par une divergence dans les hachages racine.

Nous nous excusons pour la gêne occasionnée par cet incident et apprécions le soutien manifesté par la communauté Zilliqa alors que nous travaillions à résoudre le temps d'arrêt du réseau.

Vous trouverez ci-dessous l'analyse de cette perturbation par l'équipe technique et les mesures que nous prenons pour améliorer la fiabilité du réseau Zilliqa.

Analyse des causes profondes – Perturbation du réseau Zilliqa le 18 décembre

L'analyse des causes profondes menée par l'équipe technique de Zilliqa a révélé qu'un problème d'incohérence critique avait été rencontré lors du traitement du bloc 3428513, un sous-ensemble de nœuds ne parvenant pas à recevoir l'ensemble complet de microblocs associés à ce bloc.

En conséquence, ce sous-ensemble de nœuds a dérivé un hachage racine divergent avec le reste du réseau, conduisant à un conflit dans l’établissement d’un consensus.

Ces nœuds ont ensuite quitté le consensus, laissant un nombre insuffisant de votes pour valider ce bloc, et les tentatives pour réessayer cet engagement ont conduit au même problème de non-concordance entre les hachages racine.

La base de code existante du réseau Zilliqa repose fortement sur l'hypothèse de commérages d'objets fiables à travers le réseau, et bien qu'il existe des mécanismes en place destinés à récupérer de telles divergences, dans ce cas, le code de récupération correspondant n'a pas pu s'activer.

Pour remédier à ce problème et restaurer le consensus, il était nécessaire de redémarrer le réseau Zilliqa. Cette procédure simple a été immédiatement mise en œuvre, mais elle a entraîné plusieurs heures d'arrêt.

Améliorer la fiabilité et l’efficacité de Zilliqa

L’incident du 18 décembre 2023 démontre la nécessité d’améliorer continuellement la fiabilité et l’efficacité de Zilliqa.

L'équipe technique travaille dur pour déployer des mises à niveau de l'architecture réseau qui amélioreront la fiabilité du réseau Zilliqa et réduiront le risque de temps d'arrêt dû à des incidents comme celui décrit ci-dessus.

Les mises à jour à venir de Zilliqa devraient apporter une amélioration majeure à la résilience globale du réseau et atténuer à la fois le risque et l'impact d'un incident similaire se produisant à l'avenir.

Un certain nombre d’améliorations du réseau sont en cours de mise en œuvre qui apporteront non seulement des améliorations majeures des performances et de nouvelles fonctionnalités intéressantes, mais amélioreront également directement les capacités du réseau à gérer tout incident perturbateur.

Ces changements incluent les éléments suivants :

Mise à niveau du réseau Zilliqa v9.3.0

La mise à niveau Zilliqa v9.3.0, déployée le 3 janvier 2024, réduit considérablement le risque d'incohérences similaires et de perturbations du consensus en défragmentant le réseau.

Ce changement améliorera l'efficacité et la fiabilité du réseau, fournissant une base solide pour le lancement d'une nouvelle architecture de partitionnement améliorée avec Zilliqa 2.0.

Zilliqa v9.3.0 propose également un nouveau mécanisme de contrôle actif des récompenses, une compatibilité EVM améliorée, des améliorations de l'efficacité minière et bien plus encore.

Migration vers Google Cloud Platform (GCP)

Dans le cadre de l'alliance stratégique de Zilliqa avec Google Cloud, les nœuds exploités par l'équipe d'infrastructure de Zilliqa sont en train de migrer vers Google Cloud Platform (GCP).

Cela aura un impact significatif sur les temps de démarrage du réseau, permettant au réseau d'être restauré beaucoup plus rapidement et minimisant les temps d'arrêt potentiels dans les scénarios où cela est nécessaire.

Un réseau plus fiable avec Zilliqa 2.0

Zilliqa 2.0, dont la sortie est actuellement prévue au second semestre 2024, résout les problèmes fondamentaux liés à cet incident perturbateur.

Cette version révisée et considérablement améliorée de Zilliqa éliminera l'hypothèse de fiabilité dans les potins sur les objets réseau, qui est la principale cause du temps d'arrêt connu le 18 décembre. Elle utilisera également un nouveau mécanisme de consensus qui permet de maintenir le consensus dans des scénarios similaires via un modèle d’auto-guérison.

Zilliqa 2.0 introduira également une persistance des données plus efficace, réduisant ainsi les longs délais de connexion actuellement observés sur Zilliqa.

De plus, au lieu des plusieurs heures actuellement nécessaires pour restaurer le réseau Zilliqa, Zilliqa 2.0 sera conçu pour démarrer complètement en 10 minutes environ.

Tous les changements décrits ci-dessus visent à améliorer considérablement la fiabilité du réseau Zilliqa, en offrant un réseau efficace, flexible et stable qui minimise les perturbations.

L'incident du 18 décembre souligne la nécessité d'une architecture réseau plus fiable et plus dynamique, qui est au cœur de la philosophie de conception de Zilliqa 2.0 et des mises à niveau actuellement déployées sur le réseau.

Nous nous excusons encore une fois pour la gêne occasionnée par ce temps d'arrêt et apprécions le soutien continu de la communauté Zilliqa alors que nous travaillons à améliorer la résilience et la fiabilité du réseau.