Google Cloud e Seagate: hard disk problematici sotto controllo con il 'machine learning predittivo'

Google Cloud e Seagate: hard disk problematici sotto controllo con il 'machine learning predittivo'

Google Cloud ha milioni di hard disk da monitorare costantemente per evitare che malfunzionamenti improvvisi creino problemi ai propri clienti. L'azienda, insieme a Seagate, sta sperimentando il machine learning per capire in anticipo se un disco richiede manutenzione. L'obiettivo è contenere i costi e risparmiare tempo.

di pubblicata il , alle 08:01 nel canale Cloud
Google CloudSeagate
 

Il datacenter è il regno degli hard disk e continuerà a esserlo anche negli anni a venire: secondo gli analisti di IDC, assisteremo a una crescita del 17,8% entro il 2024 per quando riguarda la mole di dati archiviata nei centri dati. Per tutti gli attori del settore, in particolare quelli più grandi come Google Cloud, è fondamentale gestire al meglio la flotta di dischi durante il funzionamento e, se possibile, rilevare potenziali malfunzionamenti in anticipo onde evitare perdite di dati o il down dei servizi che ospitano.

In passato, quando un disco evidenziava problemi di vario tipo, si procedeva il più delle volte a risolvere il problema sul posto via software. La procedura, ritenuta da Google costosa sia in termini economici che di tempo, richiedeva "ripulire" i dischi dai dati e isolarli, in modo da poter eseguire la diagnostica per poi reintrodurli, se possibile, nell'infrastruttura.

Google Cloud ha così unito le forze con Seagate per trovare un modo migliore, sia per velocità che per costi, di prevedere i problemi più frequenti degli hard disk. Insieme, le due aziende hanno sviluppato un sistema di machine learning, che gira per l'appunto sul cloud di Big G, in modo da predire la probabilità di malfunzionamenti ricorrenti (un disco che non funziona o che ha mostrato tre o più problemi negli ultimi 30 giorni).

Google deve gestire milioni di dischi che generano terabyte di dati telemetrici, tra cui miliardi di informazioni tra dati SMART (Self-Monitoring, Analysis and Reporting Technology) e log di vario genere. Vi sono letteralmente centinaia di parametri e fattori che devono essere tracciati e monitorati su ogni singolo disco, perciò non è possibile affidarsi alla sola "forza lavoro" umana.

Google ha così lavorato con Seagate e Accenture per creare un sistema di machine learning che preveda lo stato di salute degli hard disk nei propri datacenter sulla base dei dati raccolti. In un lungo post sul proprio blog, Google Cloud ha spiegato per filo e per segno i servizi usati e le procedure introdotte - noi, per brevità, sintetizzeremo. Le tre aziende hanno lavorato insieme per dimostrare il concetto, mettendo a punto un "proof of work" basato sui due tipi di unità tra le più comuni.

Per prima cosa Google ha dovuto capire in che modo alimentare il sistema di machine learning, ossia come dare in pasto le informazioni sulla salute dei dischi al sistema affinché i dati grezzi venissero incasellati ed etichettati correttamente per diventare riconoscibili e interpretabili. Tra gli strumenti usati in questo processo Google cita AutoML Tables e BigQuery.

Leggi anche: Seagate, hard disk senza difetti grazie all'intelligenza artificiale

Una volta messa a punto la pipeline di dati, Google ha voluto creare un modello perseguendo due approcci differenti per capire quale fosse il migliore: un classificatore AutoML Tables e un modello personalizzato basato sull'architettura di rete Transformer usando Tensorflow. I test sul campo hanno dimostrato che il modello basato AutoML è in grado di generare risultati migliori, superando quello personalizzato basato su Transformer o i modelli statistici.

"Dopo aver distribuito il modello, abbiamo archiviato le nostre previsioni nel nostro database e confrontato le previsioni con i registri reali di riparazione delle unità dopo 30 giorni. Il nostro modello AutoML ha raggiunto una precisione del 98% con un richiamo del 35% rispetto a una precisione del 70-80% e un richiamo del 20-25% dal modello ML personalizzato".

Google è inoltre riuscita individuare i motivi principali alla base dei guasti ricorrenti, permettendo agli ingegneri sul campo di "intraprendere azioni proattive per ridurre i guasti prima che si verificassero". Applicare quindi il machine learning ai datacenter sta consentendo a Google di ridurre i costi, prendendo di petto i problemi prima che si concretizzino e abbiano un impatto sugli utenti finali.

"Abbiamo già in programma di espandere il sistema per supportare tutte le unità Seagate e non vediamo l'ora di vedere i vantaggi per i nostri OEM e i clienti", conclude l'azienda di Mountain View.

4 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
Marko_00116 Maggio 2021, 08:56 #1
apperò

hanno inventato l'uso delle liste (di HDD)
con nidificati degli if e degli else (su dati SMART).

roba mai vista
\_Davide_/16 Maggio 2021, 11:18 #2
In passato, quando un disco evidenziava problemi di vario tipo, si procedeva il più delle volte a risolvere il problema sul posto via software. La procedura, ritenuta da Google costosa sia in termini economici che di tempo, richiedeva "ripulire" i dischi dai dati e isolarli, in modo da poter eseguire la diagnostica per poi reintrodurli, se possibile, nell'infrastruttura.


Vi riferite a 40 anni fa?

Insieme, le due aziende hanno sviluppato un sistema di machine learning, che gira per l'appunto sul cloud di Big G, in modo da predire la probabilità di malfunzionamenti ricorrenti (un disco che non funziona o che ha mostrato tre o più problemi negli ultimi 30 giorni).


Tecnologia presente su qualsiasi server da almeno 10 anni a questa parte, non hanno fatto altro che usare modelli per ottimizzare queste previsioni, ma non è nulla di nuovo...
r134816 Maggio 2021, 21:18 #3
Hmm lavoro nei datacenter di un competitor ma... come sarebbe nuova sta roba? Aver sviluppato un sistema che aggrega ed analizza i dati SMART? Con ML niente meno, che è il modo migliore per non essere mai certi di avere risultati prevedibili.
E prima cosa facevano, avevano un poveraccio che faceva troubleshoot manuale di ogni disco con un Bad Sector Reallocation?
Vash_8517 Maggio 2021, 08:37 #4
Come fatto notare da molti, i metodi utilizzati da google non hanno niente di "magico" (a differenza di quelli di apple ) è il classico articolo commissionato da big G per spingere sui servizi cloud, magari in vista di qualche target, non si sa mai che a botta di far uscire articoli/news sulle varie testate con tema:"quanto siamo bravi/quanto siamo belli, con le nostre G-Tecnologie non perdi dati perché siamo dei geni che implementano metodi sofisticatissimi", qualche manager dell' IT non decida di affidarsi davvero a loro (già visto in azienda con conseguenze terribili, adesso invece che pagare solo la licenza a MS per l'office la pagano sia a G ed anche a MS perché si sono accorti che non possono fare a meno delle funzionalità del pacchetto office, ma questa è un altra storia)

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^