CrowdStrike
Crowdstrike, il caos dovuto ad un errore di validazione: le spiegazioni lasciano interdetti
di Andrea Bai pubblicata il 24 Luglio 2024, alle 16:21 nel canale SecurityUn errore nel processo di validazione dell'aggiornamento ha condotto al caos. La società si impegna a modificare le procedure di test e ad adottare un sistema di rilascio scaglionato
40 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoquella è la mentalità dei conservatori
Anzitutto per risparmiare e impiegare meno tempo (leggasi per ottenere il massimo profitto possibile a discapito della qualità, perchè se la validazione della patch è fatta da un processo automatizzato invece che da dei tester veri, allora non devi pagare dei tester, metti in cottura la tua bella pipeline e la fai girare in automatico dopo ogni commit.
Semplifico chiaramente, ma la sostanza sappiamo bene che è quella.
L'automazione non si crea da sola e non si fa in 5 minuti, serve un discreto investimento in termini di tempo e denaro per implementare una pipeline CI/CD con tutti i crismi.
Solo con il tempo si rientra nell'investimento, ma c'è comunque bisogno di manutenzione costante e un team con la giusta mentalità perchè il tutto continui a funzionare bene.
Cosa succede ai tuoi cari test manuali quando il test viene eseguito da Tizio anzichè da Caio? Darà lo stesso risultato? E se il tester con la maggiore esperienza si licenzia o va in pensione, il team potrà garantire la stessa qualità dei test? Quanto tempo si perde a trasferire informazioni dal team di sviluppo al team di tester?
Non è una moda, si chiama "lungimiranza".
Se poi in Crowdstrike si dimenticano di implementare i casi di test necessari, significa soltanto che sono stati approssimativi.
E' già successo in passato con un aggiornamento su Debian, alla fine si è scoperto che non avevano aggiunto quella distribuzione nella matrice di test. Eppure era nella lista di distribuzioni ufficialmente supportate!
In un team di sviluppo serio questo non dovrebbe essere un problema. Esiste una cosa chiamata "blameless culture", ovvero se succede un disastro non è mai responsabilità di una singola persona.
Dietro ogni errore umano c'è una mancanza di processo (e.g. mancanza di revisione delle modifiche, procedure di rilascio, documentazione, ecc..).
Che in alcuni casi viene revocato/annullato. Non si può commentare...
Ma siete impazziti? Questo violerebbe la supercazzola numero due del momento (la numero uno ovviamente è IA, quella è francamente impossibile da spodestare), ovvero: AUTOMAZIONE
Forse escludendo il fatiscente mondo dei gestionali Zucchetti non c'è ambito dell'IT che non sia pervaso dal misticismo per l'automazione, bisogna automatizzare tutto, anche cose che si fanno una tantum e non si ripeteranno mai in futuro, o cose che ad andar bene si fanno una volta l'anno.
Perchè?
Perchè è la supercazzola del momento.
L'automazione non è il male assoluto, è solo l'ennesimo strumento usato male e usato a prescindere dappertutto, anche dove non c'è la necessità.
In alcuni casi è utile, in altri indispensabile, in tanti altri ancora (moltissimi nel nostro piccolo paese che consuma IT ma praticamente non ne produce) è solo l'ennesimo "strumento utilissimo per risolvere un problema che non ha quasi nessuno" e complica solo le cose.
Però fa tanto figo, da una parte i manager di pavoneggiano (pur non avendo capito a cosa serva nel 99% dei casi), dall'altro anche i dev si pavoneggiano perchè si sentono padroni di ambiti dove fino ieri non avrebbero mai messo il becco, dove non sanno nulla e su cui capiscono ben poco, e dove sarebbe meglio che non lo mettessero per il bene di tutti (vedasi appunto il caso Crowdstrike).
Magari fosse così.... Prima si parla di IA (ma più frequentemente specificatamente di MACHINE LEARNING), poi BIGDATA (qualunque cosa voglia dire tanto vendono anche previsioni di terremoti e l'origine dell'universo fatte grazie ai BIGDATA), poi CLOUD, poi CYBERSECURITY poi AGILE (ma inteso esclusimanente come management), poi DEVOPS (idem cone AGILE) e poi forse qualcuno come te solleva la questione della qualità del software ma dopo la martellata per fixare il problema non è rimasto più tempo e tutti tornano in giacca e cravatta ad occuparsi delle prime 6 supercazzole.
Il problema PRINCIPALE invece è quella relativa a tutto il resto del pianeta, ovvero la mancanza di sanzioni adeguate in caso di errori.
Il problema PRINCIPALE invece è quella relativa a tutto il resto del pianeta, ovvero la mancanza di sanzioni adeguate in caso di errori.
Oltre a pene severissime a chi si ingegna per scrivere malware.
Non è un semplice malfunzionamento del PC se blocchi sale operatorie, torre di controllo, gestione traffico su rotaia ecc.
La verità è che il malware cresce di numero in maniera esponenziale e diventa sempre più difficile e complicato star dietro agli aggiornamenti dei software di sicurezza e delle firme.
Non voglio giustificare l'accaduto, ma ormai tutti pretendono azioni immediate al rilevamento di un nuovo malware ( o meglio tecniche di intrusione)
Solo con il tempo si rientra nell'investimento, ma c'è comunque bisogno di manutenzione costante e un team con la giusta mentalità perchè il tutto continui a funzionare bene.
Cosa succede ai tuoi cari test manuali quando il test viene eseguito da Tizio anzichè da Caio? Darà lo stesso risultato? E se il tester con la maggiore esperienza si licenzia o va in pensione, il team potrà garantire la stessa qualità dei test? Quanto tempo si perde a trasferire informazioni dal team di sviluppo al team di tester?
Non è una moda, si chiama "lungimiranza".
Se poi in Crowdstrike si dimenticano di implementare i casi di test necessari, significa soltanto che sono stati approssimativi.
E' già successo in passato con un aggiornamento su Debian, alla fine si è scoperto che non avevano aggiunto quella distribuzione nella matrice di test. Eppure era nella lista di distribuzioni ufficialmente supportate!
In un team di sviluppo serio questo non dovrebbe essere un problema. Esiste una cosa chiamata "blameless culture", ovvero se succede un disastro non è mai responsabilità di una singola persona.
Dietro ogni errore umano c'è una mancanza di processo (e.g. mancanza di revisione delle modifiche, procedure di rilascio, documentazione, ecc..).
In pratica quello che succede tipicamente in Italia nel pubblico: nessuno si prende mai la responsabilità e paga per i suoi errori
Ma poi avviene anche la depenalizzazione perchè - si ritiene- che sia l'unico modo percorribile affinchè il dipendente pubblico si metta a decidere di sua competenza senza percepire la spada di Damocle e dunque, diversamente, fermare tutto e burocratizzare ogni questione. Ovvero la logica non è la responsabilità sulla base della formazione e conoscenza del proprio lavoro ma efficienza della P.A. = depenalizzazione.
Tu non sbagli mai forse? Se l'errore di un impiegato qualunque può danneggiare una multinazionale, il problema non è che quella persona abbia sbagliato (tutti sbagliano), ma piuttosto che sono mancati i processi che avrebbero dovuto evitare l'errore. I processi non sbagliano a differenza degli esseri umani. Sto parlando di quello che avviene nelle aziende IT serie, lascia stare i paragoni con altri ambiti.
Non è un semplice malfunzionamento del PC se blocchi sale operatorie, torre di controllo, gestione traffico su rotaia ecc.
La verità è che il malware cresce di numero in maniera esponenziale e diventa sempre più difficile e complicato star dietro agli aggiornamenti dei software di sicurezza e delle firme.
Non voglio giustificare l'accaduto, ma ormai tutti pretendono azioni immediate al rilevamento di un nuovo malware ( o meglio tecniche di intrusione)
Non centra nulla se è semplice o meno e non stiamo parlando di malware.
Stiamo parlando della fase di test di un update che NON è stato testato.
Potevo capire se 1 server o 1 pc su 1 milione ne fosse stato afflitto, ma quì è la quasi totalità, il che significa che NESSUNO si è degnato di installarlo su un campionario ( anche ridotto ) di macchine.
Se un dipendente o dirigente non si sente all'altezza lo deve segnalare e dimettersi altrimenti si prende le responsabilità degli errori che commette.
Il motivo per cui accade questo è perchè tanto non gli succede nulla o viene semplicemente degradato o al massimo viene invitato a dimettersi e basta.
Imponigli sanzioni economiche da contratto da pagare, con diversi zeri e vedrai che stanno tutti più attenti a come si muovono.
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".