Lancio di Shardeum: un risultato rivoluzionario
Lunedì 27 gennaio 2024 nel mondo di web3 si è verificato un evento rivoluzionario che può essere paragonato all’impresa storica di un veicolo spaziale che ritorna perfettamente alla sua rampa di lancio dopo la sua prima missione di test di volo. In questo scenario straordinario, Shardeum non solo ha affrontato sfide difficili, ma è anche emersa vittoriosa, con la sua resilienza di rete che ha segnato la prima volta che una rete shard è riuscita ad autoripararsi nel regno della tecnologia di contabilità distribuita.
Proprio come il viaggio di un'astronave implica un'attenta pianificazione, ingegneria di precisione ed esecuzione senza soluzione di continuità di manovre complesse, il ripristino del betanet Sphinx di Shardeum, che aveva subito un incidente critico, richiedeva un pari livello di maestria tecnologica e innovazione. La capacità di rendere persistenti tutti i dati su una rete, in particolare quella che funziona utilizzando lo sharding dello stato dinamico, è rivoluzionaria.
Mentre ci imbarchiamo in questa esplorazione, non solo celebriamo lo storico sbarco di Shardeum, ma lo riconosciamo anche come un momento spartiacque nell'evoluzione della tecnologia web3 — un salto che potrebbe ridefinire i confini della resilienza della rete IT e dell'integrità dei dati.
La prima rete Shard in grado di recuperare e conservare i dati in modo indipendente
Il mantenimento e il ripristino dinamico di una rete shard, come Shardeum, comprende uno spettro di sfide tecniche complesse che la differenziano dalle tradizionali reti blockchain come Bitcoin o Ethereum. In un ambiente di shard espressi dinamicamente con scalabilità automatica, la riallocazione continua e il bilanciamento di nodi e risorse su diversi shard sono fondamentali per ottimizzare le prestazioni e la scalabilità. Questi continui cambiamenti nell'architettura di rete aggiungono una notevole complessità nel mantenere la coerenza dei dati, garantire la stabilità della rete e facilitare un efficace ripristino in caso di guasto.
L'importanza di questa sfida viene sottolineata quando si confronta la risposta di Shardeum alle fluttuazioni dei nodi con Bitcoin. La rete Bitcoin mantiene la funzionalità anche con un numero limitato di nodi, poiché ciascun nodo attivo ha uno stato completo e una cronologia delle transazioni. Al contrario, ciascun nodo attivo su Shardeum non ha uno stato completo e una cronologia delle transazioni, a causa della rete di shard di Shardeum, e ciascun validatore ha solo una parte dello stato complessivo. La conseguenza di questo sharding è che tutti i nodi di validazione diventano molto leggeri. Pertanto, questo crea una moltitudine di opportunità e sfide ingegneristiche. Se un nodo non funziona, come possiamo garantire che tutti i dati vengano mantenuti? Shardeum ha due modi principali.
Innanzitutto, Shardeum utilizza lo sharding a stato dinamico, in cui l'intero spazio degli indirizzi è partizionato (o diviso) in base al numero di nodi attivi. Ciascun nodo è responsabile della partizione assegnata, insieme ad un certo raggio (R) attorno ad esso e ad ulteriori partizioni (E) adiacenti ad esso, garantendo adattabilità dinamica e forte ridondanza dei dati all'interno della struttura della rete. Quindi, anche se un nodo si guasta, la continuità della rete è comunque garantita e nessun dato viene perso.
In secondo luogo, Shardeum utilizza i nodi di archivio per archiviare lo stato completo dell'intera rete. Ciò si ottiene trasmettendo ai nodi attivi lo stato parzialmente memorizzato all'archiver per la raccolta. A causa di questi due fattori e dell’ottimizzazione della progettazione, il ripristino di tali reti deve essere progettato in nuovi modi per facilitare comunque funzionalità vantaggiose come la scalabilità automatica e la scalabilità lineare.
Comprendere gli arresti anomali
Ora che abbiamo compreso le basi dello sharding dello stato dinamico e che i nodi di archiviazione sono in qualche modo coinvolti, analizziamo alcuni dei componenti aggiuntivi in modo più approfondito e li spieghiamo. Per comprendere il crash e il ripristino della betanet di Shardeum, dobbiamo prima capire qualcosa su quanto segue:
Nodo di archiviazione
Rileva gli archiviatori mancanti
Modalità di rete
Modalità di recupero
Comprendere le basi di ciascuno di questi è importante prima di immergerci nei bug coinvolti, quindi diamo un'occhiata!
Nodo di archivio: Inter Stellar Storage
In Shardeum, i nodi archiver, chiamati anche archiver, rappresentano una categoria molto importante di nodi, incaricati di archiviare l'intero stato e i record storici della rete. Differenti dai nodi attivi, gli archiviatori non partecipano al processo di consenso; La sua funzione principale è archiviare in modo completo tutti i dati della rete, comprese transazioni e ricevute. Il contributo del nodo di archiviazione è fondamentale per sostenere l'integrità della rete e garantire che le sue operazioni funzionino senza intoppi, confermando così lo status di Shardeum come rete forte, completa e affidabile. Poiché gli archiviatori sono parte integrante della sua rete, Shardeum deve disporre di protocolli per rilevare gli archiviatori (e i validatori) che non rispondono.
Rilevamento di archivi perduti: svelata la tecnologia aliena
Shardeum ha un protocollo chiamato protocollo di rilevamento del nodo perso che rileva quando un nodo attivo diventa inoperativo — questo è destinato solo ai nodi attivi. Tuttavia, Shardeum ha anche un protocollo per gli archiviatori che fa qualcosa di simile chiamato rilevamento dell'archiviatore mancante. Il rilevamento degli archiver mancanti è un protocollo speciale progettato per gestire il raro scenario in cui uno o più archiver diventano inoperativi e vengono contrassegnati come mancanti. Poiché i nodi di archiviazione sono fondamentali per mantenere l'integrità e l'accessibilità dei dati storici nella rete, è quindi fondamentale che, nel caso in cui non rispondano o non funzionino correttamente, questi eventi critici possano essere catturati per mitigare gli effetti a valle. Sebbene un archiver mancante non causi questo particolare crash, lo fa l'interazione tra il protocollo di rilevamento dell'archiver mancante e la particolare modalità di rete. Ora vediamo quali modalità di rete sono presenti in Shardeum.
Modalità di rete su Shardeum: nessuna NASA richiesta
L'innovazione di punta in Shardeum supportata dal protocollo Shardus sottostante è il framework della modalità di rete. Queste modalità vanno oltre le condizioni operative di base, realizzando un coordinamento complesso di varie attività dei nodi, metodi di sincronizzazione dei dati e sistemi di gestione delle transazioni. Tale configurazione di rete gioca un ruolo importante nel mantenimento dell'integrità operativa della rete, soprattutto in scenari caratterizzati dalla perdita di nodi e dati — poiché Shardeum è una rete frammentata.
A un livello più semplice, il modo migliore per comprendere la modalità di rete in Shardeum è come un piano di emergenza ben codificato che consenta la continuità delle operazioni per l'intera rete — anche in condizioni improbabili come arresti anomali della rete o degrado dell'intera rete. Questa resilienza operativa e resilienza preprogrammate garantiscono che Shardeum sarà sempre vivo — indipendentemente dalle difficoltà che la rete deve affrontare.
Sebbene la comprensione dei bug non richieda la comprensione di ogni aspetto del framework della modalità di rete, è utile conoscerne le nozioni di base. L'essenza del framework della modalità di rete è l'incorporazione di diverse fasi di rete: creazione, elaborazione, sicurezza, ripristino, riavvio, ripristino e interruzione. Queste modalità sono realizzate con cura per affrontare varie situazioni ed emergenze della rete. Tuttavia, la modalità di cui ci occupiamo in questo articolo è la modalità di ripristino.
Modalità di recupero del reverse engineering: Rosewell rivisitato
La modalità di ripristino è una delle 7 modalità di rete sopra menzionate. La modalità di ripristino viene avviata quando il numero di nodi attivi della rete scende al di sotto di una soglia critica predeterminata (attualmente configurata al 75% o inferiore). Questa soglia può essere regolata in base ai requisiti della rete. In questa modalità, la rete sospende l'elaborazione delle transazioni dell'applicazione e la sincronizzazione dei dati dell'applicazione. Questa strategia è progettata per facilitare l'espansione della rete ciclizzando senza soluzione di continuità i nodi inattivi come parte della rotazione dei nodi, riportando così il numero di nodi attivi a livelli ottimali, idealmente superiori al 100%.
Durante la modalità di ripristino, l'architettura di rete di Shardeum consente aggiornamenti graduali dei nodi, limitati a una crescita del 20% per ciclo (ogni ciclo dura circa 60 secondi). Questo tasso di crescita controllato è fondamentale per mantenere la stabilità della rete e garantire un’integrazione fluida dei nuovi nodi. Un rapido aumento del numero di nodi, ad esempio un picco del 50%, ha il potenziale per destabilizzare la rete e complicare il processo di integrazione.
Ogni nodo appena aggiunto richiede risorse di rete per la sincronizzazione e l'integrazione. Limitando gli aggiornamenti al 20% per ciclo, la rete garantisce che la sua infrastruttura possa supportare adeguatamente l’aggiunta di nuovi nodi senza sforzo. Questo approccio non solo mantiene la stabilità della rete, ma riduce anche al minimo il rischio di incoerenze o errori dei dati durante il processo di sincronizzazione, mantenendo così l'integrità dei dati della catena del ciclo.
Cause principali degli arresti anomali: orizzonte degli eventi
È importante notare che ci sono due bug diversi. Bug della libreria Neon — che causava il crash casuale dei validatori e un bug nel protocollo di rilevamento dell'archiver mancante — che non accettava un elenco di validatori vuoto. Sebbene sia il bug del protocollo di rilevamento dell'archiviatore mancante a causare il crash della versione attuale di Betanet, vorrei invitarti a discutere prima del bug della libreria neon.
Nella versione 1.9.1 di Sphinx, abbiamo integrato un aggiornamento alla libreria che utilizza il raccoglitore Neon per collegare le funzioni Rust e TypeScript perché Shardeum è principalmente costruito in TypeScript. Neon è noto per il suo approccio innovativo, anche se sperimentale, che spesso spinge i confini delle pratiche di sviluppo software convenzionali. Questa integrazione mira a migliorare l'interoperabilità tra questi due linguaggi, consentendo una comunicazione più efficiente e diretta all'interno della nostra architettura software. Tuttavia, ciò causa un bug che fa sì che i nodi escano casualmente dalla rete.
In secondo luogo, nel recente incidente che ha causato un crash della betanet su Shardeum, la causa principale è stata identificata in un'anomalia critica originata dall'interazione tra i due diversi sottosistemi menzionati sopra: il meccanismo di rilevamento dell'archiviatore mancante e il protocollo della modalità di ripristino della rete.
Questo breve incidente è stato innescato dall’attivazione simultanea di questi due meccanismi, uno scenario mai incontrato o testato prima. Il processo di archivio perso viene attivato insieme alla modalità di ripristino della rete e a causa di un bug nella modalità archivio perso che non accetta un elenco vuoto di nodi attivi. Ciò porta a un arresto anomalo della rete.
Cronache della ripresa: dallo shock sistemico al risveglio stellare
Quindi cosa è successo realmente e quando? Una sequenza temporale degli eventi che circondano l'arresto anomalo della rete e la sua risoluzione è la seguente:
Vulnerabilità e aggiornamento iniziale: la rete presenta una vulnerabilità segnalata dal processo di linting 1.9.1 nella libreria npm (neon). È stato implementato un miglioramento per risolvere questo problema. Tuttavia, questo miglioramento ha generato inavvertitamente un'eccezione che non è stata riprodotta durante i test locali.
Eccezioni intermittenti della libreria che causano interruzioni del validatore: la libreria, neon, presenta eccezioni sporadiche che causano interruzioni periodiche del validatore di rete. Sebbene la progettazione della rete consenta resilienza attraverso la ricarica di questi validatori, purtroppo tempi di guasto simultanei tra più validatori attivano la modalità di ripristino della rete.
Attivazione della modalità di ripristino della rete: una volta in modalità di ripristino della rete, il protocollo deve eliminare e ricreare l'elenco dei nodi attivi. Un bug simultaneo nel sistema di archiviazione mancante, che non conteneva un elenco di validatori vuoto, è stata la causa principale del crash della rete.
Risoluzione e ripristino della rete: il crash è stato risolto e la rete è stata ripristinata con successo utilizzando i dati archiviati nell'archiviatore. Questa è la prima volta nella storia che una rete shard Layer 1 in crash viene ripristinata con successo e tutti i dati sulla rete vengono preservati intatti. Ciò non è mai stato fatto su nessuna rete, per non parlare di una rete con sharding dello stato dinamico. Questo risultato segna un “atterraggio missilistico” di successo in termini di ripristino della rete.
Correzioni completate: sono state implementate correzioni iniziali per risolvere i problemi della libreria, ma nel tentativo continuo di migliorare la stabilità della rete, è stata rilasciata la versione 1.9.5. Questo aggiornamento introduce un'unica ma importante correzione di bug che risolve un altro caso di arresto anomalo del neon, individuando e risolvendo la vulnerabilità specifica senza richiedere un aggiornamento a livello di rete. Inizialmente, gli utenti che utilizzano la versione 1.9.4 hanno la flessibilità di rimanere alla versione corrente o scegliere di aggiornare alla 1.9.5, in base alla loro valutazione delle prestazioni della rete e alle preferenze di stabilità. Tuttavia, alla fine è stato deciso che, allo scopo di migliorare la stabilità della rete e risolvere i problemi persistenti legati al neon binding, la versione minima richiesta per il validatore dovrebbe essere aumentata alla 1.9.5. Questo aggiornamento mira a escludere sistematicamente i validatori in esecuzione sulla versione 1.9.4, che sono stati identificati come vulnerabili agli arresti anomali a causa delle suddette complicazioni del legame al neon. Ciò è necessario per garantire che la microspia al neon sia stata completamente rimossa e completamente riparata.
Ora che conosciamo la sequenza temporale e come si sono verificati gli eventi principali, diamo un'occhiata a cosa è successo in modo che la rete possa essere ripristinata rapidamente.
Verso la ripresa
Recupero agile
Il ripristino della rete è composto da molte parti, ma una delle principali è la modalità di ripristino Shardeum. Come affermato in precedenza, la modalità di ripristino viene avviata quando il numero di nodi attivi della rete scende al di sotto di una soglia critica predeterminata e consente una crescita della rete rapida, controllata ed efficace in modo sicuro per ripristinare la rete. È importante sottolineare che senza l'ingegno tecnologico dei progettisti e degli sviluppatori della modalità di rete — Shardeum non sarebbe stato in grado di riprendersi dallo schianto così facilmente e anche di dimostrare la sua abilità innovativa.
Inoltre, il team tecnologico di Shardeum ha compiuto sforzi significativi lanciando un'azione immediata. Il passaggio iniziale prevedeva un'analisi approfondita per identificare la causa principale dell'arresto anomalo, che è stata ricondotta a un'anomalia nell'interazione tra il rilevamento dell'archivio mancante della rete e il suo sistema di modalità di ripristino. Comprendendo la complessità del problema, il team ha rapidamente implementato un approccio articolato per affrontare gli impatti immediati e le vulnerabilità sottostanti.
Risposta mista da parte del team Shardeum Technology
Tecnicamente, la risposta è stata mista: in primo luogo, il team ha isolato i componenti interessati per prevenire un’ulteriore degradazione dei tessuti. Allo stesso tempo, hanno applicato una patch per correggere un bug nel sistema di archiviazione mancante, assicurandosi che potesse gestire un elenco di validatori vuoto — un errore critico che ha innescato il guasto della rete. Per ripristinare la rete alla piena capacità operativa, i dati archiviati nell'archivio vengono quindi attivati e utilizzati per ricostruire le condizioni della rete prima del crollo, garantendo che nessun dato venga perso nel processo.
Dal punto di vista logistico, il team si coordina tra fusi orari e discipline, sfruttando strumenti basati su cloud per la collaborazione e il monitoraggio in tempo reale. Questo sforzo coordinato non solo facilita un rapido sviluppo e implementazione delle correzioni, ma garantisce anche che tutti i membri del team siano allineati sul processo di ripristino e sui passaggi successivi.
Questo incidente è servito come test rigoroso dei protocolli di gestione degli incidenti di Shardeum e ha evidenziato l'importanza di risposte agili e innovative a sfide inaspettate. Ciò sottolinea l’impegno del team nel mantenere una rete resiliente e sicura, pronta a superare complessi ostacoli tecnici non appena si presentano.
Innovazioni per atterraggi sicuri e legati allo spazio
In conclusione, il riuscito recupero della rete di shard Shardeum segna un cambiamento significativo nella tecnologia di rete, segnando una pietra miliare con implicazioni di vasta portata per il settore. Anche se attualmente poco conosciute, innovazioni come la modalità di rete finiranno per stabilire nuovi standard di settore nel web3.
Da tempo sono convinto che le innovazioni principali di Shardeum abbiano molte probabilità di influenzare i futuri sviluppi tecnologici, ispirando l'innovazione e una nuova generazione di tecnologia di contabilità. Essendo stato testimone diretto del primo ripristino della rete Shardeum, sapevo che questo sarebbe stato un catalizzatore per la rivalutazione degli standard di settore, portando potenzialmente all’adozione di protocolli e metodologie più rigorosi nella progettazione e nell’architettura della rete.
Questo evento non solo ha messo in mostra l’abilità tecnica e l’innovazione del team Shardeum, ma ha anche segnato l’inizio di un’era in cui le reti decentralizzate diventano più robuste, adattabili e in grado di gestire sfide impreviste quando si tratta di pianificazione del disaster recovery. In definitiva, la tecnologia Shardeum annuncerà una nuova era di decentralizzazione.