Google Cloud e Seagate: hard disk problematici sotto controllo con il 'machine learning predittivo'
di Manolo De Agostini pubblicata il 16 Maggio 2021, alle 08:01 nel canale Cloud
Google Cloud ha milioni di hard disk da monitorare costantemente per evitare che malfunzionamenti improvvisi creino problemi ai propri clienti. L'azienda, insieme a Seagate, sta sperimentando il machine learning per capire in anticipo se un disco richiede manutenzione. L'obiettivo è contenere i costi e risparmiare tempo.
Il datacenter è il regno degli hard disk e continuerà a esserlo anche negli anni a venire: secondo gli analisti di IDC, assisteremo a una crescita del 17,8% entro il 2024 per quando riguarda la mole di dati archiviata nei centri dati. Per tutti gli attori del settore, in particolare quelli più grandi come Google Cloud, è fondamentale gestire al meglio la flotta di dischi durante il funzionamento e, se possibile, rilevare potenziali malfunzionamenti in anticipo onde evitare perdite di dati o il down dei servizi che ospitano.
In passato, quando un disco evidenziava problemi di vario tipo, si procedeva il più delle volte a risolvere il problema sul posto via software. La procedura, ritenuta da Google costosa sia in termini economici che di tempo, richiedeva "ripulire" i dischi dai dati e isolarli, in modo da poter eseguire la diagnostica per poi reintrodurli, se possibile, nell'infrastruttura.
Google Cloud ha così unito le forze con Seagate per trovare un modo migliore, sia per velocità che per costi, di prevedere i problemi più frequenti degli hard disk. Insieme, le due aziende hanno sviluppato un sistema di machine learning, che gira per l'appunto sul cloud di Big G, in modo da predire la probabilità di malfunzionamenti ricorrenti (un disco che non funziona o che ha mostrato tre o più problemi negli ultimi 30 giorni).
Google deve gestire milioni di dischi che generano terabyte di dati telemetrici, tra cui miliardi di informazioni tra dati SMART (Self-Monitoring, Analysis and Reporting Technology) e log di vario genere. Vi sono letteralmente centinaia di parametri e fattori che devono essere tracciati e monitorati su ogni singolo disco, perciò non è possibile affidarsi alla sola "forza lavoro" umana.
Google ha così lavorato con Seagate e Accenture per creare un sistema di machine learning che preveda lo stato di salute degli hard disk nei propri datacenter sulla base dei dati raccolti. In un lungo post sul proprio blog, Google Cloud ha spiegato per filo e per segno i servizi usati e le procedure introdotte - noi, per brevità, sintetizzeremo. Le tre aziende hanno lavorato insieme per dimostrare il concetto, mettendo a punto un "proof of work" basato sui due tipi di unità tra le più comuni.
Per prima cosa Google ha dovuto capire in che modo alimentare il sistema di machine learning, ossia come dare in pasto le informazioni sulla salute dei dischi al sistema affinché i dati grezzi venissero incasellati ed etichettati correttamente per diventare riconoscibili e interpretabili. Tra gli strumenti usati in questo processo Google cita AutoML Tables e BigQuery.
Leggi anche: Seagate, hard disk senza difetti grazie all'intelligenza artificiale
Una volta messa a punto la pipeline di dati, Google ha voluto creare un modello perseguendo due approcci differenti per capire quale fosse il migliore: un classificatore AutoML Tables e un modello personalizzato basato sull'architettura di rete Transformer usando Tensorflow. I test sul campo hanno dimostrato che il modello basato AutoML è in grado di generare risultati migliori, superando quello personalizzato basato su Transformer o i modelli statistici.
"Dopo aver distribuito il modello, abbiamo archiviato le nostre previsioni nel nostro database e confrontato le previsioni con i registri reali di riparazione delle unità dopo 30 giorni. Il nostro modello AutoML ha raggiunto una precisione del 98% con un richiamo del 35% rispetto a una precisione del 70-80% e un richiamo del 20-25% dal modello ML personalizzato".
Google è inoltre riuscita individuare i motivi principali alla base dei guasti ricorrenti, permettendo agli ingegneri sul campo di "intraprendere azioni proattive per ridurre i guasti prima che si verificassero". Applicare quindi il machine learning ai datacenter sta consentendo a Google di ridurre i costi, prendendo di petto i problemi prima che si concretizzino e abbiano un impatto sugli utenti finali.
"Abbiamo già in programma di espandere il sistema per supportare tutte le unità Seagate e non vediamo l'ora di vedere i vantaggi per i nostri OEM e i clienti", conclude l'azienda di Mountain View.
4 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infohanno inventato l'uso delle liste (di HDD)
con nidificati degli if e degli else (su dati SMART).
roba mai vista
Vi riferite a 40 anni fa?
Tecnologia presente su qualsiasi server da almeno 10 anni a questa parte, non hanno fatto altro che usare modelli per ottimizzare queste previsioni, ma non è nulla di nuovo...
E prima cosa facevano, avevano un poveraccio che faceva troubleshoot manuale di ogni disco con un Bad Sector Reallocation?
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".