Alcuni SSD di HPE muoiono dopo 32.768 ore: facciamo chiarezza (e ricordiamoci dei backup)
di Riccardo Robecchi pubblicata il 30 Novembre 2019, alle 11:01 nel canale DeviceUn nuovo problema con alcuni modelli di SSD di HPE ci ricorda quanto siano fondamentali i backup: dopo meno di 4 anni alcuni SSD smettono di funzionare per un problema al firmware (risolvibile con un aggiornamento)
In inglese si dice che "il diavolo sta nei dettagli", un modo di dire che esprime bene quanto alcuni dettagli possano in realtà causare molti problemi. Se ne è accorta HPE quando molteplici clienti hanno segnalato che alcuni SSD hanno cominciato a comportarsi in maniera anomala: diversi clienti hanno segnalato la morte improvvisa di diversi dischi SSD a distanza molto ravvicinata uno dall'altro. Ecco cosa è successo e come risolvere il problema.
Alcuni SSD HPE smettono di funzionare dopo 32.768 ore
Alcuni clienti di HPE hanno segnalato all'azienda la morte improvvisa di alcuni SSD a distanza estremamente ravvicinata una dall'altra: su Reddit sono molteplici gli amministratori di sistema che raccontano come anche sei SSD siano morti nel giro di 15 minuti. Ma perché accade questo?
Il problema sta nel firmware degli SSD. Il firmware è stato infatti programmato utilizzando un numero intero a 16 bit con segno per rappresentare le ore di attività: ciò si traduce in un numero massimo rappresentabile di 32.768 ore, ovvero 3 anni, 270 giorni e 8 ore. Per fare un confronto, utilizzando un numero a 32 bit con segno si otterrebbe un massimo di 2.147.836.648 ore, equivalenti all'incirca a 245.000 anni!
Superata la soglia fatidica delle 32.768 ore, gli SSD sono diventati inaccessibili e i dati sono da considerare persi per sempre. Come evitare che questo problema si verifichi? Non si tratta di un problema che è possibile correggere senza aggiornare il firmware. Nel caso in cui si sia in possesso di dischi affetti dal problema è consigliabile aggiornare il firmware quando disponibile, o metterli completamente offline (scollegandoli fisicamente dalle macchine) fino a che il firmware aggiornato non sarà disponibile.
Sono ben 20 i modelli di SSD coinvolti da questo problema: HPE mette a disposizione al momento aggiornamenti solo per 8 di essi, con gli aggiornamenti per i restanti modelli che saranno resi disponibili nella seconda settimana di dicembre. Il firmware necessario è la versione HDP8. Un elenco completo dei modelli di SSD coinvolti è disponibile su questa pagina.
Il problema non è stato scoperto indipendentemente da HPE, ma da un fornitore. Tornando alla frase iniziale, il diavolo sta nei dettagli: la selezione di un tipo di dato inadeguato per rappresentare il tempo di attività ha causato la morte dei dischi, perché troppo restrittivo. Questo è il tipo di dettaglio che facilmente sfugge durante i test e che deve essere individuato durante la fase di progettazione.
Ancora una volta, però, questo tipo di problematica ci ricorda come sia assolutamente fondamentale mantenere un backup dei propri dati aziendali: in questo caso la loro perdita è definitiva e totale e può rappresentare un danno estremamente consistente per l'azienda. Trovate utili consigli in merito al backup nel nostro articolo sul World Backup Day.
18 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoChe fanno, programmano i BIOS ancora con Win311??
Che fanno, programmano i BIOS ancora con Win311??
No, programmano su processori embedded che per quanto potenti hanno delle architetture diverse, con vantaggi prestazionali nell'utilizzare particolari tipi di dati. Non che giustifichi l'utilizzo, ma int16 e' utilizzato ancora ampiamente, e sinceramente anche in applicazioni desktop e workstation, tutto dipende dall'utilizzare i tipi giusti nei contesti giusti.
E non puoi nemmeno rivalerti sulla garanzia...
non è difficile immaginare un danno (molto) maggiore lato immagine...
inoltre è davvero troppo sgamabile per essere fatto apposta
Ma se non appare un popup da qualche parte (ammesso che esiste una software di gestione che rimane aperto), si assume che il cliente debba essere stato raggiunto da tale avviso critico, sempre e comunque e quindi un discarico di responsabilità da parte di HPE?
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".