CrowdStrike

Crowdstrike, il caos dovuto ad un errore di validazione: le spiegazioni lasciano interdetti

di pubblicata il , alle 16:21 nel canale Security Crowdstrike, il caos dovuto ad un errore di validazione: le spiegazioni lasciano interdetti

Un errore nel processo di validazione dell'aggiornamento ha condotto al caos. La società si impegna a modificare le procedure di test e ad adottare un sistema di rilascio scaglionato

 

CrowdStrike ha pubblicato un resoconto che spiega cosa sia successo, nel dettaglio, quando è stato rilasciato l'aggiornamento difettoso che ha causato il blocco di 8,5 milioni di macchine Windows lo scorso venerdì. La società ha individuato la causa principale in un bug presente nel software di test che ha mancato di validare correttamente l'aggiornamento rivelatosi poi difettoso.

Lo scorso venerdì 19 luglio CrowdStrike ha rilaciato un aggiornamento automatico per il software Falcon, utilizzato largamente da aziende anche di alto profilo per la sicurezza degli endopoint Windows. Secondo le dichiarazioni della società questo aggiornamento avrebbe avuto lo scopo di "raccogliere dati di telemetria su possibili nuove tecniche di minaccia". Si tratta invero di operazioni abituali, ma questa volta qualcosa è andato storto, portandosi dietro le conseguenze che abbiamo conosciuto.

CrowdStrike fa uso di due metodi distinti per rilasciare gli aggiornamenti di configurazione. Il primo, denominato Sensor Content, aggiorna direttamente il sensore Falcon che opera a livello di kernel in Windows. Il secondo, chiamato Rapid Response Content, modifica il comportamento di quel sensore per ottimizzare il rilevamento del malware. Ed è stato proprio un piccolo file Rapid Response Content, di soli 40KB, a scatenare il caos lo scorso venerdì.

CrowdStrike gestisce un sistema proprietario che esegue controlli di convalida sui contenuti prima del rilascio, esattamente con l'obiettivo di prevenire incidenti come quello che si è invece verificato. La scorsa settimana la società ha rilasciato due aggiornamenti Rapid Response Content, noti anche come Template Instances: una di queste due ha superato la convalida del sistema di controllo, nonostante contenesse alcuni problemi. Proprio questi problemi hanno causato il famigerato Blue Screen of Death di Windows, per via di un comportamento non previsto dovuto ad una lettura out-of-bounds della memoria.

La società ha inoltre sottolineato il proprio impegno a migliorare il processo di testing e distribuzione degli aggiornamenti per evitare che situazioni come quella di venerdì dovessero riproporsi in futuro. Oltre ad una revisione dei testing su Rapid Response Content, implementando anche i test di sviluppatori locali e rollback dei contenuti, assieme a test di stabilità e stress test, la società adotterà anche un meccanismo di distribuzione degli aggiornamenti a scaglioni, evitando di inviare l'aggiornamento contemporaneamente a tutti i sistemi.

Ciò che comunque, a valle di tutto, desta maggior perplessità è il fatto che evidentemente il meccanismo di validazione utilizzato da CrowdStrike non effettua nessun genere di test su macchine in produzione: sarebbe bastato un solo test, magari "a mano", su una singola macchina per accorgersi del problema...

40 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
Tasslehoff24 Luglio 2024, 16:53 #1
Un test a mano? Non automatizzato?

Ma siete impazziti? Questo violerebbe la supercazzola numero due del momento (la numero uno ovviamente è IA, quella è francamente impossibile da spodestare), ovvero: AUTOMAZIONE

Forse escludendo il fatiscente mondo dei gestionali Zucchetti non c'è ambito dell'IT che non sia pervaso dal misticismo per l'automazione, bisogna automatizzare tutto, anche cose che si fanno una tantum e non si ripeteranno mai in futuro, o cose che ad andar bene si fanno una volta l'anno.

Perchè?

Perchè è la supercazzola del momento.

L'automazione non è il male assoluto, è solo l'ennesimo strumento usato male e usato a prescindere dappertutto, anche dove non c'è la necessità.

In alcuni casi è utile, in altri indispensabile, in tanti altri ancora (moltissimi nel nostro piccolo paese che consuma IT ma praticamente non ne produce) è solo l'ennesimo "strumento utilissimo per risolvere un problema che non ha quasi nessuno" e complica solo le cose.

Però fa tanto figo, da una parte i manager di pavoneggiano (pur non avendo capito a cosa serva nel 99% dei casi), dall'altro anche i dev si pavoneggiano perchè si sentono padroni di ambiti dove fino ieri non avrebbero mai messo il becco, dove non sanno nulla e su cui capiscono ben poco, e dove sarebbe meglio che non lo mettessero per il bene di tutti (vedasi appunto il caso Crowdstrike).
ninja75024 Luglio 2024, 16:57 #2
pubblicano una nota per dire come sono belli i loro test

che non hanno funzionato

cioè..
Gringo [ITF]24 Luglio 2024, 17:02 #3
Basterebbe ora fargli pagare i danni di perdite in denaro alle 8.5 milioni di macchine e scopriranno che gli costava meno aver pagato 500$ ad una persona per installare su una decina di macchine di test.

Ma sai il futuro e Le macchine lavorano.... e l'umanità è estinta da anni....
blackshard24 Luglio 2024, 17:05 #4
Originariamente inviato da: Gringo [ITF]
Basterebbe ora fargli pagare i danni di perdite in denaro alle 8.5 milioni di macchine e scopriranno che gli costava meno aver pagato 500$ ad una persona per installare su una decina di macchine di test.

Ma sai il futuro e Le macchine lavorano.... e l'umanità è estinta da anni....


Se leggi le loro clausole ci sarà scritto certamente che non sono responsabili di un fico secco se qualcosa va' storto...
Piedone111324 Luglio 2024, 18:02 #5
Originariamente inviato da: blackshard
Se leggi le loro clausole ci sarà scritto certamente che non sono responsabili di un fico secco se qualcosa va' storto...


Possono aver scritto cosa gli pare, ma se, come in Italia, vengono condannati per negligenza rimborseranno eccome.
Quella clausola potrebbe essere applicata solo nel caso un bug avrebbe reso attaccabile gli host ( questo ci può stare) sempre che poi non vengano condannati per pubblicità ingannevole.
Gringo [ITF]24 Luglio 2024, 18:13 #6
sempre che poi non vengano condannati per pubblicità ingannevole.

...in Italia più e alto il danno fatto e più facile è che se ne escano con un Premio Produzione Extra ed una Laurea Onoris Causa in Sicurezza,
mica hanno scaricato un MP3 protetto SIAE o visto una Partita Abusiva, per quello si c'è l'ERGASTOLO e Pubblica Inquisizione.
io78bis24 Luglio 2024, 18:16 #7
Io non ho seguito molto la vicenda ma se per andare in crash Windows bastava installare l'aggiornamento non capisco quali siano i test di validazione che fanno pre distribuzione.
SinapsiTXT24 Luglio 2024, 18:21 #8
Originariamente inviato da: io78bis
Io non ho seguito molto la vicenda ma se per andare in crash Windows bastava installare l'aggiornamento non capisco quali siano i test di validazione che fanno pre distribuzione.


Ti sei perso il millenium bug avvenuto con 24 anni di distanza
Il vietnam del reparto IT.
randy8824 Luglio 2024, 19:06 #9
ZAN ZAN

E come volevasi dimostrare, la mancanza di un test fatto a mano ha permesso ad un aggiornamento fallato di essere distribuito in tutto il mondo.

Dipendesse per me, Crowdstrike, chiude domani.
silvanotrevi24 Luglio 2024, 19:11 #10
Se questi aggiornamenti fossero stati gestiti dalla IA, quel blackout non sarebbe mai avvenuto.

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
^