Toshiba

Come archiviare petabyte di dati generati dalle macchine: la visione di Toshiba

di Redazione pubblicata il 08 Marzo 2021, alle 13:21 nel canale Device

La quantità di dati generati a livello globale cresce di svariati miliardi di terabyte ogni anno a causa di un numero sempre crescente di macchine e dispositivi che li generano. Ma dove li salveremo? Anche nell’era dell’IoT, gli hard disk continuano a essere indispensabili

In occasione della partecipazione di Toshiba all'edizione digitale del CloudFest 2021 (23-25 marzo 2021), nella giornata di apertura Rainer W. Kaese, Senior Manager Business Development, Storage Products Division at Toshiba Electronics Europe GmbH, terrà un intervento di approfondimento dal titolo "How Will We Store Exabytes of Machine-Created Data?". Nell'articolo che segue un'anteprima di quanto verrà discusso dal Senior Manager di Toshiba.

RainerKaese_20210218

Il volume di dati da gestire, nel corso degli ultimi anni, si è visibilmente moltiplicato, ma il vero boom non è ancora stato raggiunto. Se in passato le informazioni venivano generate prevalentemente da persone, sotto forma di video, foto e documenti, con l’avvento dell’era dell’IoT sono macchine, dispositivi e sensori a generare la maggior parte dei dati. E di conseguenza, ci sono più device IoT che persone, e questi generano informazioni molto più velocemente rispetto a noi. Una singola vettura a guida autonoma, per fare un esempio, genera svariati terabyte di dati al giorno. L’acceleratore di particelle del CERN genera 1 petabyte di informazioni ogni secondo, ma di questi solo 10 petabyte al mese vengono archiviati per analisi future.

Oltre alla guida autonoma e alla ricerca scientifica, fra i principali responsabili della crescita del volume di dati da archiviare ci sono la videosorveglianza e l’industria. IDC stima che la quantità di dati generati a livello globale passerà dai 45 zettabyte dello scorso anno ai 175 zettabyte entro il 2025¹. In soli 6 anni, è stata generata una quantità di informazioni tre volte superiore a tutti i dati che esistevano nel 2019, più precisamente 130 zettabyte, cioè 130 miliardi di terabyte.

Una grande quantità di queste informazioni viene elaborata nel momento in cui viene creata, come nel caso dei sensori installati sui veicoli a guida autonoma o negli stabilimenti industriali (edge computing), motivo per cui in questi scenari è essenziale ottenere risultati veloci, facilmente accessibili e reagire in tempo reale. E, di conseguenza, qui “il tempo necessario” a trasferire le informazioni per un’analisi centralizzata diventa inaccettabile. Bisogna però considerare che lo spazio di archiviazione on-site, così come la capacità di elaborazione, sono limitati e prima o poi sarà necessario spostare queste informazioni nei data center, dove potranno essere processate e unite con dati acquisiti da altre fonti, per essere poi analizzate ulteriormente e infine archiviate.

Queste esigenze rappresentano un’enorme sfida per le infrastrutture di storage delle aziende e degli istituti di ricerca che devono essere in grado di recepire un flusso costante di informazioni e archiviarle in maniera sicura. Tutto ciò è possibile solo se si dispone di architetture in grado di offrire una capacità di archiviazione pari a svariate dozzine di petabytes costantemente espandibili. Queste architetture devono inoltre basarsi su hardware per lo storage in grado di soddisfare la richiesta in costante crescita. La realtà però è che la banda necessaria per gestire la quantità di dati a cui facciamo riferimento è insufficiente e i costi inaccettabili.

Per le aziende che archiviano dati provenienti da sensori IoT lo storage è per certi versi una commodity. Non si tratta di qualcosa che viene “consumato” in senso letterale ma, di qualcosa che come altri beni di consumo, viene regolarmente acquistato e richiede un costante investimento. Un esempio di come le infrastrutture di storage e i modelli di approvvigionamento dello storage stesso potrebbero essere nell’era dell’IoT arriva da istituti di ricerca come il CERN, che già oggi elaborano e archiviano enormi quantità di informazioni. L'Organizzazione europea per la ricerca nucleare, nonché il più grande laboratorio al mondo di fisica delle particelle, continua ad aumentare la capacità di archiviazione del suodata center, con centinaia di hard disk di ultima generazione. I 100.000 HDD presenti al CERN offrono una capacità di archiviazione pari a 350 petabyte.

I costi guidano la scelta del supporto di archiviazione

L’esempio del CERN conferma la validità e il primato degli hard disk quando si tratta di archiviare enormi quantità di dati. Il disco fisso continua ad essere il supporto più economico in grado di soddisfare due requisiti chiave: disponibilità di spazio e facilità di accesso. A confronto, i nastri sono molto economici, ma non adatti per essere usati come supporto online: sono adatti solo all’archiviazione. All’estremo opposto ci sono le memorie flash, che costano dalle 8 alle 10 volte in più rispetto ad un hard disk di pari capacità. E seppur gli SSD stiano calando di prezzo, c’è da dire che lo stesso sta accadendo per gli HDD. Questi ultimi sono inoltre in grado di offrire un livello di prestazioni adeguato ai requisiti degli ambienti dov’è richiesto uno storage high-capacity. Un singolo HDD può essere più lento di un SSD, ma utilizzando insieme diversi hard disk ad alta velocità è possibile ottenere valori di IOPS molto elevati, in grado di rispettare i requisiti delle applicazioni di analytics.

Toshiba_MachineGeneratedData

Alla fine, il prezzo resta l’unico vero e proprio criterio di scelta, soprattutto perché i volumi di dati da archiviare nel mondo IoT possono essere compressi solo in minima parte. Quando è possibile comprimere i dati, questo avviene tipicamente sugli endpoint o nell’edge, così da ridurre la quantità di informazioni che vanno trasferite. In questa maniera le informazioni arrivano ai data center già compresse e possono essere archiviate senza ridurle ulteriormente. Bisogna poi considerare che la deduplicazione non offre grandi margini di compressione perché, al contrario di altri dati aziendali o backup, sono pochi i dati ripetuti.

Considerata la quantità di informazioni generate dall’IoT e la grande quantità di dischi necessari per gestirla, l’affidabilità degli hard disk diventa di fondamentale importanza. Non tanto per il rischio di perdite di dati, che possono essere mitigate con appropriate strategie di backup, ma per la manutenzione dell’hardware. Con un AFR (Annualised Failure Rate) dello 0,7% al posto dello 0,35% ottenuto dal CERN grazie all’adozione di dischi Toshiba, una soluzione di storage basata su 100.000 dischi richiederebbe la sostituzione di 350 hard drive ogni anno, praticamente un hard disk al giorno.

Gli hard disk saranno insostituibili ancora per molti anni

Nei prossimi anni non ci saranno grandi stravolgimenti e lo storage dei dati provenienti dai sistemi IoT sarà affidato prevalentemente agli hard disk. La capacità di produzione di SSD è ancora troppo bassa per poter competere con gli hard disk. Per coprire l’attuale domanda di storage usando solo SSD, la produzione di unità flash dovrebbe crescere in maniera significativa. Se si considera che la costruzione di un singolo stabilimento per la produzione di flash può costare miliardi di euro, è facile comprendere la difficoltà economica di rendere questa tecnologia competitiva. E, in ogni caso, la produzione di memorie flash aumenterebbe solo dopo due anni, andando a coprire il livello della domanda del 2020 e non quello del 2022.

La produzione di hard disk, al contrario, può essere aumentata con più facilità dal momento che sono necessari meno passaggi in cleanroom rispetto a quanto bisogna fare nella produzione di semiconduttori. Senza contare gli importanti passi in avanti avvenuti nel settore degli hard disk, come l’impiego delletecnologie HAMR (Heat-Assisted Magnetic Recording) e MAMR (Microwave-Assisted Magnetic Recording) che stanno contribuendo ad aumentare le capacità dei dischi. Gli esperti ritengono che la capacità di archiviazioni degli hard disk continuerà a crescere al ritmo di 2 terabyte all’anno, agli stessi costi attuali. È il motivo per cui IDC prevede che per la fine del 2025, più dell’80% della capacità di archiviazione per i data center e sistemi edge enterprise continuerà a essere costituita da hard disk. Gli SSD e altri supporti flash peseranno solo per il 20%².

[1] IDC “Data Age 2025” Whitepaper, Update from May 2020

[2] Case Study Toshiba

I migliori sconti su Amazon oggi

-38%

Amazfit GTR 3 Pro, 46 mm, Smartwatch Orologio Intelligente Alexa Integrato, 150 modalità di Allenamento con GPS, Monitor del Sonno, AMOLED, 5 ATM Impermeabile, Durata Batteria di 12 Giorni, SpO2

159.90 99.90€ Compra ora

-14%

Apple iPhone 16 Pro Max 256 GB: Telefono 5G con Controllo fotocamera, Dolby Vision 4K a 120 fps e un’autonomia senza precedenti. Compatibile con AirPods; Titanio nero

1489.00 1279.00€ Compra ora

-27%

Ring Videocamera esterna a batteria 2 pezzi (Stick Up Cam) + Videocamera interna (Indoor Cam 2a gen.) | Telecamere di sicurezza wifi HD con audio bidirezionale | Ring Home: 30 gg. prova gratuita

219.97 159.97€ Compra ora

MolGX è la piattaforma AI di IBM per scoprire nuovi materiali

Asustor Lockerstor 2 è il piccolo NAS con due SSD in più

Axel.vv08 Marzo 2021, 13:24 #1

2009 o 2019?

Mechano08 Marzo 2021, 17:39 #2

Se portano i 3,5" alla doppia altezza potremo vedere unità incredibili da 40TB per disco, solo come inizio...

Tedturb008 Marzo 2021, 20:41 #3

Originariamente inviato da: Mechano

Se portano i 3,5" alla doppia altezza potremo vedere unità incredibili da 40TB per disco, solo come inizio...

A che serve? non credo che a questi signori manchino le porte SATA, e un disco del genere non consumerebbe poi tanto meno di 2 dischi normali. In compenso vibrazioni e rischi vari aumenterebbero in maniera esponenziale.

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.

VIDEO IN EVIDENZA

TOPICS

tutti gli articoli »

tutte le news »

ASUS ROG Zephyrus G14: il notebook ibrido molto potente Dimensioni compatte che si abbinano ad una elevatissima potenza di calcolo, grazie al processore AMD Ryzen AI 9 HX 370 e alla scheda video NVIDIA GeForce RTX 5080:...

realme GT7: un "flaghsip killer" concreto! La recensione Abbiamo provato l'ultimo smartphone di realme, il nuovo GT7. Si tratta di un device che si colloca in una fascia di mercato delicata, ovvero quella che possiamo...

Mario Kart World lancia Switch 2: la magia Nintendo ora in 4K Abbiamo provato esaustivamente due dei titoli di lancio della nuova console di Nintendo, il cui debutto è previsto per la settimana in corso. Mario Kart World e...

DJI Mavic 4 Pro: sblocca un nuovo livello per le riprese aeree DJI Mavic 4 Pro porta in dote il nuovo Stabilizzatore Infinity a 360°, che permette nuovi gradi di libertà nelle riprese aeree. Non solo può ruotare a 360 gradi,...

Vi portiamo all'interno di uno dei più importanti centri di distribuzione Amazon in Italia MXP6 è uno dei più recenti investimenti di Amazon sul territorio italiano, per la realizzazione di un capannone da 60.000 metri quadri alle porte di Novara, a due...

La rivoluzione dei dati in tempo reale è in arrivo. Un assaggio a Confluent Current 2025 Siamo andati a Londra per partecipare a Current 2025, la conferenza annuale di Confluent. Il tema al centro dell'evento era l'elaborazione dei dati in tempo reale...

Test Stiga HT 300e Kit, tagliasiepi con doppia batteria per dire addio alla benzina Completiamo la cura del nostro giardino con il tagliasiepi, e ancora una volta abbiamo provato un prodotto di Stiga. Il kit con doppia batteria si conferma campione...

Fujifilm X100VI: con le 'ricette' è la fotocamera più divertente del momento Fujifilm X100VI è la fotocamera perfetta per divertirsi con la street photography: è tascabile, offre grande qualità, ma soprattutto permette di giocare molto con...

No Rss