Cloudflare ha messo in ginocchio gran parte di Internet martedì mattina, causando interruzioni diffuse del servizio per X di Elon Musk e un’ampia gamma di siti Web, app e persino videogiochi. L’azienda ora ammette che il fallimento è stato completamente imputabile a un errore di programmazione.
Notizie Breitbart riferito ieri che l’America si è svegliata con un Internet pieno di messaggi di errore e siti Web che non funzionavano. Le interruzioni diffuse sono state rapidamente ricondotte a Cloudflare, che molte aziende utilizzano per fornire uno “scudo” tra i propri server e Internet in generale.
Nell’a post sul blog pubblicato di recenteCloudflare ha spiegato che le interruzioni del servizio sono state causate da problemi di programmazione interna, affermando categoricamente che “Il problema non è stato causato, direttamente o indirettamente, da un attacco informatico o da attività dannose di alcun tipo”.
Secondo la società, l’interruzione è stata innescata da una modifica interna apportata alle autorizzazioni di accesso al database utilizzate dal suo sistema di gestione dei bot. Questa modifica ha causato inavvertitamente la generazione da parte del database di un file di “configurazione delle funzionalità” utilizzato per i suoi modelli di apprendimento automatico che era il doppio della dimensione prevista. Quando questo file di configurazione sovradimensionato si è propagato attraverso la rete globale di Cloudflare, ha superato un limite di dimensione codificato nel software, causando il completo errore del modulo di gestione del bot. Ciò si è tradotto in guasti diffusi del proxy di traffico principale di Cloudflare responsabile dell’instradamento di tutto il traffico dei clienti.
Ad aggravare il problema, gli errori si sono manifestati in modo incoerente perché il database è stato aggiornato solo parzialmente con la modifica delle autorizzazioni. Ciò ha comportato la generazione intermittente di un file di grandi dimensioni ogni cinque minuti mentre le query del database venivano eseguite su parti aggiornate e non aggiornate del cluster di database. I fallimenti inizialmente hanno portato gli ingegneri di Cloudflare a sospettare un attacco DDoS (Distributed Denial of Service) eseguito da malintenzionati, una teoria che è stata completamente smentita dopo aver scavato più a fondo.
Sebbene il guasto dei server di Cloudflare abbia colpito molti clienti, altri ancora hanno avuto problemi quando anche i servizi di terze parti integrati con Cloudflare, come i sistemi di accesso dei clienti che utilizzano il loro Turnstile CAPTCHA, hanno subito guasti.
Gli ingegneri di Cloudflare hanno interrotto l’interruzione intorno alle 10:00 ET bloccando la generazione del file di grandi dimensioni e distribuendo manualmente una versione sicuramente valida sulla loro rete. Sebbene la società abbia affermato che i servizi sono stati ripristinati in seguito, molti siti Web hanno riscontrato problemi per molte ore dopo la correzione. Si ritiene generalmente che l’interruzione sia durata sei ore, con un esperto del settore che stima che sia costata 15 miliardi di dollari l’ora per i clienti di Cloudflare.
In seguito all’incidente, il CEO di Cloudflare Matthew Prince ha pubblicato delle scuse, definendo l’interruzione inaccettabile e profondamente dolorosa per l’intero team, dato il ruolo fondamentale di Cloudflare nell’ecosistema Internet. L’azienda sta ora conducendo un’approfondita revisione interna per identificare le lacune dei processi, rafforzare i sistemi contro futuri errori di configurazione, migliorare il debug e l’osservabilità e implementare kill switch di funzionalità più granulari.
Leggi di più su Blog di Cloudflare qui.
Lucas Nolan è un reporter di Breitbart News che si occupa di questioni di libertà di parola e censura online.
