Come archiviare petabyte di dati generati dalle macchine: la visione di Toshiba

Come archiviare petabyte di dati generati dalle macchine: la visione di Toshiba

La quantità di dati generati a livello globale cresce di svariati miliardi di terabyte ogni anno a causa di un numero sempre crescente di macchine e dispositivi che li generano. Ma dove li salveremo? Anche nell’era dell’IoT, gli hard disk continuano a essere indispensabili

di pubblicata il , alle 13:21 nel canale Device
Toshiba
 

In occasione della partecipazione di Toshiba all'edizione digitale del CloudFest 2021 (23-25 marzo 2021), nella giornata di apertura Rainer W. Kaese, Senior Manager Business Development, Storage Products Division at Toshiba Electronics Europe GmbH, terrà un intervento di approfondimento dal titolo "How Will We Store Exabytes of Machine-Created Data?". Nell'articolo che segue un'anteprima di quanto verrà discusso dal Senior Manager di Toshiba.

RainerKaese_20210218

Il volume di dati da gestire, nel corso degli ultimi anni, si è visibilmente moltiplicato, ma il vero boom non è ancora stato raggiunto. Se in passato le informazioni venivano generate prevalentemente da persone, sotto forma di video, foto e documenti, con l’avvento dell’era dell’IoT sono macchine, dispositivi e sensori a generare la maggior parte dei dati. E di conseguenza, ci sono più device IoT che persone, e questi generano informazioni molto più velocemente rispetto a noi. Una singola vettura a guida autonoma, per fare un esempio, genera svariati terabyte di dati al giorno. L’acceleratore di particelle del CERN genera 1 petabyte di informazioni ogni secondo, ma di questi solo 10 petabyte al mese vengono archiviati per analisi future.

Oltre alla guida autonoma e alla ricerca scientifica, fra i principali responsabili della crescita del volume di dati da archiviare ci sono la videosorveglianza e l’industria. IDC stima che la quantità di dati generati a livello globale passerà dai 45 zettabyte dello scorso anno ai 175 zettabyte entro il 20251In soli 6 anni, è stata generata una quantità di informazioni tre volte superiore a tutti i dati che esistevano nel 2019, più precisamente 130 zettabyte, cioè 130 miliardi di terabyte.

Una grande quantità di queste informazioni viene elaborata nel momento in cui viene creata, come nel caso dei sensori installati sui veicoli a guida autonoma o negli stabilimenti industriali (edge computing), motivo per cui in questi scenari è essenziale ottenere risultati veloci, facilmente accessibili e reagire in tempo reale. E, di conseguenza, qui “il tempo necessario” a trasferire le informazioni per un’analisi centralizzata diventa inaccettabile. Bisogna però considerare che lo spazio di archiviazione on-site, così come la capacità di elaborazione, sono limitati e prima o poi sarà necessario spostare queste informazioni nei data center, dove potranno essere processate e unite con dati acquisiti da altre fonti, per essere poi analizzate ulteriormente e infine archiviate.

Queste esigenze rappresentano un’enorme sfida per le infrastrutture di storage delle aziende e degli istituti di ricerca che devono essere in grado di recepire un flusso costante di informazioni e archiviarle in maniera sicura. Tutto ciò è possibile solo se si dispone di architetture in grado di offrire una capacità di archiviazione pari a svariate dozzine di petabytes costantemente espandibili. Queste architetture devono inoltre basarsi su hardware per lo storage in grado di soddisfare la richiesta in costante crescita. La realtà però è che la banda necessaria per gestire la quantità di dati a cui facciamo riferimento è insufficiente e i costi inaccettabili.

Per le aziende che archiviano dati provenienti da sensori IoT lo storage è per certi versi una commodity. Non si tratta di qualcosa che viene “consumato” in senso letterale ma, di qualcosa che come altri beni di consumo, viene regolarmente acquistato e richiede un costante investimento. Un esempio di come le infrastrutture di storage e i modelli di approvvigionamento dello storage stesso potrebbero essere nell’era dell’IoT arriva da istituti di ricerca come il CERN, che già oggi elaborano e archiviano enormi quantità di informazioni. L'Organizzazione europea per la ricerca nucleare, nonché il più grande laboratorio al mondo di fisica delle particelle, continua ad aumentare la capacità di archiviazione del suodata center, con centinaia di hard disk di ultima generazione. I 100.000 HDD presenti al CERN offrono una capacità di archiviazione pari a 350 petabyte.

I costi guidano la scelta del supporto di archiviazione

L’esempio del CERN conferma la validità e il primato degli hard disk quando si tratta di archiviare enormi quantità di dati. Il disco fisso continua ad essere il supporto più economico in grado di soddisfare due requisiti chiave: disponibilità di spazio e facilità di accesso. A confronto, i nastri sono molto economici, ma non adatti per essere usati come supporto online: sono adatti solo all’archiviazione. All’estremo opposto ci sono le memorie flash, che costano dalle 8 alle 10 volte in più rispetto ad un hard disk di pari capacità.  E seppur gli SSD stiano calando di prezzo, c’è da dire che lo stesso sta accadendo per gli HDD. Questi ultimi sono inoltre in grado di offrire un livello di prestazioni adeguato ai requisiti degli ambienti dov’è richiesto uno storage high-capacity. Un singolo HDD può essere più lento di un SSD, ma utilizzando insieme diversi hard disk ad alta velocità è possibile ottenere valori di IOPS molto elevati, in grado di rispettare i requisiti delle applicazioni di analytics.

Toshiba_MachineGeneratedData

Alla fine, il prezzo resta l’unico vero e proprio criterio di scelta, soprattutto perché i volumi di dati da archiviare nel mondo IoT possono essere compressi solo in minima parte. Quando è possibile comprimere i dati, questo avviene tipicamente sugli endpoint o nell’edge, così da ridurre la quantità di informazioni che vanno trasferite. In questa maniera le informazioni arrivano ai data center già compresse e possono essere archiviate senza ridurle ulteriormente. Bisogna poi considerare che la deduplicazione non offre grandi margini di compressione perché, al contrario di altri dati aziendali o backup, sono pochi i dati ripetuti.

Considerata la quantità di informazioni generate dall’IoT e la grande quantità di dischi necessari per gestirla, l’affidabilità degli hard disk diventa di fondamentale importanza. Non tanto per il rischio di perdite di dati, che possono essere mitigate con appropriate strategie di backup, ma per la manutenzione dell’hardware. Con un AFR (Annualised Failure Rate) dello 0,7% al posto dello 0,35% ottenuto dal CERN grazie all’adozione di dischi Toshiba, una soluzione di storage basata su 100.000 dischi richiederebbe la sostituzione di 350 hard drive ogni anno, praticamente un hard disk al giorno.

Gli hard disk saranno insostituibili ancora per molti anni

Nei prossimi anni non ci saranno grandi stravolgimenti e lo storage dei dati provenienti dai sistemi IoT sarà affidato prevalentemente agli hard disk. La capacità di produzione di SSD è ancora troppo bassa per poter competere con gli hard disk. Per coprire l’attuale domanda di storage usando solo SSD, la produzione di unità flash dovrebbe crescere in maniera significativa. Se si considera che la costruzione di un singolo stabilimento per la produzione di flash può costare miliardi di euro, è facile comprendere la difficoltà economica di rendere questa tecnologia competitiva. E, in ogni caso, la produzione di memorie flash aumenterebbe solo dopo due anni, andando a coprire il livello della domanda del 2020 e non quello del 2022.

La produzione di hard disk, al contrario, può essere aumentata con più facilità dal momento che sono necessari meno passaggi in cleanroom rispetto a quanto bisogna fare nella produzione di semiconduttori. Senza contare gli importanti passi in avanti avvenuti nel settore degli hard disk, come l’impiego delletecnologie HAMR (Heat-Assisted Magnetic Recording) e MAMR (Microwave-Assisted Magnetic Recording) che stanno contribuendo ad aumentare le capacità dei dischi. Gli esperti ritengono che la capacità di archiviazioni degli hard disk continuerà a crescere al ritmo di 2 terabyte all’anno, agli stessi costi attuali. È il motivo per cui IDC prevede che per la fine del 2025, più dell’80% della capacità di archiviazione per i data center e sistemi edge enterprise continuerà a essere costituita da hard disk. Gli SSD e altri supporti flash peseranno solo per il 20%2.

[1] IDC “Data Age 2025” Whitepaper, Update from May 2020

[2] Case Study Toshiba 

3 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
Axel.vv08 Marzo 2021, 13:24 #1
2009 o 2019?
Mechano08 Marzo 2021, 17:39 #2
Se portano i 3,5" alla doppia altezza potremo vedere unità incredibili da 40TB per disco, solo come inizio...
Tedturb008 Marzo 2021, 20:41 #3
Originariamente inviato da: Mechano
Se portano i 3,5" alla doppia altezza potremo vedere unità incredibili da 40TB per disco, solo come inizio...


A che serve? non credo che a questi signori manchino le porte SATA, e un disco del genere non consumerebbe poi tanto meno di 2 dischi normali. In compenso vibrazioni e rischi vari aumenterebbero in maniera esponenziale.

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^