La vicenda OVHcloud ci ricorda l’importanza di avere un piano per il Disaster Recovery

La vicenda OVHcloud ci ricorda l’importanza di avere un piano per il Disaster Recovery

I disservizi causati dagli incendi ai server di Strasubrgo evidenziano l'importanza di preparare un piano di Disaster Recovery adeguato, che consenta di ripristinare almeno i servizi critici il prima possibile, perché l'imprevisto è sempre dietro l'angolo

di pubblicata il , alle 11:41 nel canale Cloud
OVHcloud
 

È passata una settimana dall’incendio che ha danneggiato alcuni dei server a Strasburgo di OVHcloud, uno dei principali cloud provider europei. OVHcloud è una grande azienda e, pur con dimensioni non paragonabili ai colossi della nuvola come AWS, Microsoft e Google, è uno dei punti di riferimento per le aziende di ogni dimensione in Europa. Offre servizi accessibili anche al mondo delle PMI ed è uno dei membri di Open Cloud Foundation, associazione che si batte contro il vendor lock in, promuovendo l’interoperabilità delle soluzioni.  Comprensibile quindi la preoccupazione di molti, che sono rimasti stupiti nel constatare che alcuni dati non saranno recuperabili.

ovh-datacenter-fuoco-10-03-2021

Ma come? Il cloud non doveva risolvere proprio questa tipologia di problemi? In parte sì, ma la nuvola non è solo un grande archivio dove conservare i backup dei propri dati, ma qualcosa di molto più complesso, attraverso la quale vengono erogati ai clienti sia servizi di calcolo sia di storage. Ma un conto è appoggiarsi a dei servizi, un altro è affidare completamente la sicurezza dei propri dati a un solo sistema, sia esso un hard disk esterno, un nastro, un NAS o, appunto, i servizi cloud.

La causa dell’incendio potrebbe essere un UPS riparato la mattina stessa

Il giorno successivo all’incendio, Octave Klaba, chairman di OVHcloud, ha condiviso un video su Youtube scusandosi coi clienti per quanto successo e cercando di ricostruire l’accaduto. Non ci sono ancora certezze ma pare che la causa primaria sia da ricercare in uno degli UPS, al quale è stata fatta manutenzione la mattina precedente all’incendio. Qualcosa deve essere andato storto durante le riparazioni dal momento che sembra che tutto si sia propagato proprio dal gruppo di continuità appena riparato. Gli allarmi antincendio hanno funzionato, ma il personale ha dovuto rapidamente evacuare il data center SBG2 che non era più sicuro e, nonostante l’arrivo dei pompieri, le fiamme si sono estese ai data center adiacenti, SBG1, SBG3 ed SBG4, prima di essere domate. Seguendo questo link è possibile verificare la situazione dei vari servizi, ed è subito evidente che i danni più gravi – con dati persi definitivamente - sono relativi ai data center SBG1 ed SBG2, che ospitavano snapshot di sistemi, backup e istanze di public cloud.

Sia chiaro: non è l’intera infrastruttura di OVHcloud in crisi, ma solo i 4 data center di Straburgo. Gli altri 23 data center, disponibili sia in vari paesi europei sia in Asia e America, continuano a funzionare senza alcun problema.

Alcuni backup persi per sempre, ma la colpa non è “del cloud”

Andando a guardare la lista dei servizi e dati non più recuperabili, è possibile notare una grande quantità di snapshop e backup, inclusi alcuni i backup del data center stesso gestiti tramite Managed Veeam Backup. Qualcuno potrebbe alzare il sopracciglio, chiedendosi come è possibile che i backup risiedessero nella stessa struttura, o in quelle adiacenti e non ci fossero repliche sulle altre regioni, ma questa non è una mancanza di OVHcloud, bensì una precisa scelta dei clienti che per imperizia, incoscienza o voglia di spendere il meno possibile, non hanno attivato un piano di Disaster Recovery, che volendo può essere acquistato presso il provider stesso (è basato su Zerto). Chi ha avuto l’accortezza di attivarlo ha chiaramente sperimentato dei disservizi, ma non ha perso un singolo bit, dal momento che tutti i dati erano replicati su altre infrastrutture. Certo, i servizi sono caduti e sono rimasti inaccessibili per alcune ore, ma chi è stato più prudente, facendo un’attenta analisi del rischio, ha potuto recuperare tutte le sue informazioni.

Disaster Recovery

OVHcloud, come del resto la maggior parte dei cloud provider, non include di base un servizio di Disaster Recovery che copia i backup su ulteriori data center dislocati in differenti posizioni geografiche, proprio per ovviare a problemi gravi come in questo caso. Questi servizi vanno acquistati a parte. Non è un caso che fra le prime comunicazioni di OVHcloud ai clienti c’è stata proprio la raccomandazione di attivare i piani di Disaster Recovery, piani che evidentemente non tutti avevano messo in piedi né con gli strumenti offerti dal provider, né con mezzi propri. In Rete si sprecano commenti sarcastici sul fatto che un provider cloud suggerisca ai suoi clienti di attivarsi per recuperare i propri dati salvati da altre fonti, ma questi commenti denotano solo una scarsa conoscenza di come funziona il cloud, degli SLA (i Service Level Agreement, gli accordi su cosa è responsabilità del provider e cosa invece no) e dell’importanza di avere un piano di Disaster Recovery. L’impressione è che in tanti, aziende incluse, non abbiano fatto i conti con la realtà: per quanto la tecnologia sia affidabile, l’imprevisto è sempre dietro l’angolo. Un disastro naturale come un terremoto, o un incendio, può distruggere anche le infrastrutture più sicure ed è per questo che una politica seria di backup si basa sul concetto di 3-2-1, una sorta di regola sacra dei sistemisti.

321 backup_ovh.png

Questo approccio prevede di avere ALMENO 3 copie dei propri dati, due delle quali su differenti dispositivi e una terza da tenere su un sito differente, nel caso il primo venga distrutto da eventi catastrofici. Le copie locali sono utilissime per ripristinare nella maniera più veloce possibile i dati in caso di problemi (pensiamo agli snapshot, per esempio), ma non bastano per garantire la sicurezza totale.

A questo approccio al backup bisogna poi affiancare un piano di Disaster Recovery, che deve naturalmente essere preparato in anticipo e deve includere tutte le checklist per il ripristino dei servizi, a partire da quelli critici. Per essere chiari, è una responsabilità delle imprese che li possiedono questi dati occuparsi del backup e del piano di Disaster Recovery, non di chi offre i servizi cloud. Questo vale per OVHcloud, ma anche per tutti gli altri: Azure, AWS, Google Cloud, Oracle Cloud. Nessuno di questi attori potrà garantire la sicurezza al 100% dei dati presenti su un singolo data center e questo è esplicito. Non è un caso che aziende come Veeam offrano anche soluzioni per effettuare copie di sicurezza dei dati di Teams, Microsoft 365 e via dicendo, e che la stessa OVHcloud offrisse strumenti appositi proprio per limitare i danni in situazioni come questa.  

La realtà dei fatti: molte aziende non sono ancora mature sul digitale

dataloss

In tutta questa vicenda il dato che desta più preoccupazioni non è che alcuni server di OVHcloud abbiano preso fuoco, distruggendo definitivamente le informazioni che contenevano, ma il fatto che questo problema non abbia solo rallentato o bloccato momentaneamente alcuni servizi, ma abbia avuto conseguenze ben più gravi su alcuni clienti, evidentemente impreparati. Gli strumenti non mancavano, inclusi quelli offerti da OVHcloud, ma la poca competenza di chi si è trovato a gestire questi sistemi, o le pessime scelte della dirigenza mirate al massimo risparmio, hanno portato a danni gravi. Non che la cosa stupisca: negli ultimi anni ransomware di ogni tipo hanno bloccato sistemi di aziende di ogni dimensione e, soprattutto, enti pubblici, ospedali inclusi, e in molti casi le vittime si sono trovate a pagare il riscatto, dal momento che altrimenti non avevano modo di recuperare i loro dati.

Considerando che sempre più aziende stanno facendo passi avanti nei loro percorsi di trasformazione digitale, è fondamentale tenere conto di questi aspetti, affidandosi a tecnici esperti in grado di spiegare alla dirigenza l’importanza di investire il necessario per la salvaguardia delle informazioni, prevedendo sempre il peggio. Perché eventi come questi, pur rarissimi, si verificheranno sempre, e chi non si è pronto, non si limiterà a subire qualche inconveniente momentaneo.

15 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
canislupus17 Marzo 2021, 12:42 #1
Beh se non è stato fatto sono due le motivazioni:

1) Soldi (a nessun imprenditore piace spendere soldi per qualcosa che non si dovrebbe mai usare)
2) Incompetenza

Poi c'è da dire una cosa... un disaster recovery RARAMENTE avrà mai le medesime prestazioni di un sistema Online... spesso avrà funzioni molto limitate e dove non fosse possibile operare in tal modo, vi saranno limitazioni a livelli di banda oppure di prestazioni.

Dove lavoro io ce lo abbiamo... ma l'unica volta che per un problema ad un server dovevamo usarlo, è stato preferibile avere un down di diverse ore (e vi assicuro che si perdono tanti soldi) perchè il rollback avrebbe richiesto dei giorni.

Ovviamente questa è una situazione assurda, ma purtroppo il nostro sistema ha delle lacune strutturali che non sempre rendono possibile l'uso del disaster recovery (tranne se prende fuoco tutto il CED... )
Rubberick17 Marzo 2021, 13:02 #2
Il punto è non arrivare ad una situazione dove succede il casino completamente scoperti.

Un sistema ridondato online dedicato è ovviamente esageratamente costoso, esistono però delle soluzioni intermedie a più livelli che permettono di tenersi su pur tamponando sui costi.

Non dico che un nas aggiornato periodicamente off-site sia la soluzione ma può esserlo per molte ditte medio-piccole.
acerbo17 Marzo 2021, 13:11 #3
il disaster recovery nelle grandi aziende é implementato da almeno 20 anni, in telecom facevamo i test di switch del datacenter nei primi anni 2000. Alla BNP facciamo un test ogni 3 settimane in ogni regione ( EMEA, ASIA e AMERICA).
Dipende tutto dai costi che l'azienda é pronta a supportare, il sitarello di e-commerce che fattura 300.000 euro all'anno probabilmente non ha interesse ad accollarsi altri costi di gestione per un DR, chi invece ha i mezzi e omette certe accortezze si merita queste situazioni e dovrebbe licenziare il proprio direttore dei servizi informatici.
Svelgen17 Marzo 2021, 13:40 #4
Io mi sono atrezzato così:

[LIST=1]
[*]Backup in locale su hd esterno.
[*]Altro Backup su NAS posizionato in garage e lontano dall'abitazione.
[*]Ulteriore backup custodito nella cassetta di sicurezza in Banca.
[/LIST]

Dopo tutto questo casino, ugualmente non mi sento completamente al sicuro contro la perdita dei dati...
Cfranco17 Marzo 2021, 14:47 #5
Mi pare che si faccia un po' di casino tra backup e disaster recovery
Il disaster recovery è una soluzione per evitare un down prolungato dovuto a calamità che colpiscono un data center, costa tanto avere una copia delle macchine in stand by perenne e anche metterlo in piedi e tenerlo pronto non è sempre banale, però in casi estremi permette di rimettere in linea i sistemi in tempi relativamente brevi e senza dover aspettare il ripristino dei danni.
Un backup geografico invece fa in modo che i dati ( e solo quelli ) siano replicati su diversi datacenter, in questo caso il downtime te lo fai tutto, ma hai garanzia che al termine potrai recuperare i dati, il costo è solitamente contenuto e l'implementazione non è diversa da un normale backup.
canislupus17 Marzo 2021, 15:02 #6
Originariamente inviato da: Cfranco
Mi pare che si faccia un po' di casino tra backup e disaster recovery
Il disaster recovery è una soluzione per evitare un down prolungato dovuto a calamità che colpiscono un data center, costa tanto avere una copia delle macchine in stand by perenne e anche metterlo in piedi e tenerlo pronto non è sempre banale, però in casi estremi permette di rimettere in linea i sistemi in tempi relativamente brevi e senza dover aspettare il ripristino dei danni.
Un backup geografico invece fa in modo che i dati ( e solo quelli ) siano replicati su diversi datacenter, in questo caso il downtime te lo fai tutto, ma hai garanzia che al termine potrai recuperare i dati, il costo è solitamente contenuto e l'implementazione non è diversa da un normale backup.


Esatto Cfranco... noi abbiamo in azienda copie ridondate in diverse aree geografiche e su diversi supporti (persino i nastri ).
Il Disaster Recovery è ben distante dal sito Online ed è perfettamente identico nella parte hw/sw... per scelte aziendali (avendo una signora linea dedicata) non abbiamo anche la medesima banda... quindi il nostro servizio verrebbe erogato a singhiozzo e comunque con delle forti latenze.
Rubberick17 Marzo 2021, 15:46 #7
Ma, mi domando soprattutto per le dimensioni medio piccole non conviene avere un backup remoto aggiornato di un sistema di vm che possono essere rimesse su in tempi brevi dovessero saltare i server fisici dove le vm originali girano? non è un vero disaster recovery ma mi sembra un ottimo compromesso
acerbo17 Marzo 2021, 15:55 #8
Originariamente inviato da: Rubberick
Ma, mi domando soprattutto per le dimensioni medio piccole non conviene avere un backup remoto aggiornato di un sistema di vm che possono essere rimesse su in tempi brevi dovessero saltare i server fisici dove le vm originali girano? non è un vero disaster recovery ma mi sembra un ottimo compromesso


Ormai quasi nessuno ha server fisici, a parte esigenze particolari sono tutte VM.
Il fatto di avere un piano di ripresa che ti permette di switchare i servizi da un DC ad un altro é una cosa che va progettata e implementata per bene ed ha i suoi costi.
Tutte le applicazioni devono essere disegnate per poter funzionare in maniera trasparente da un sito all'altro e ci vuole un meccanismo di failover che dirotta il traffico da una rete ad un'altra, con tutte le configurazioni e i dati replicati in tempo reale. Già il fatto di avere un database sincronizzato da un DC ad un altro comporta tantisssime difficolta. E' una cosa molto piu' semplcie a dirsi che a farsi, paradossalmente é piu' fattibile per piccole realtà rispetto a grandi e complesse infrastrutture. Il "semplice" backup dei dati puoi farlo su un nas ridontato , ma bisogna avere coscienza di quali sono i dati importanti da backuppare e spesso questo nelle piccole/medie aziende si sottovaluta.
jepessen18 Marzo 2021, 08:55 #9
Originariamente inviato da: canislupus
Poi c'è da dire una cosa... un disaster recovery RARAMENTE avrà mai le medesime prestazioni di un sistema Online... spesso avrà funzioni molto limitate e dove non fosse possibile operare in tal modo, vi saranno limitazioni a livelli di banda oppure di prestazioni.


Il che e' perfettamente normale. Il piano di disaster recovery deve essere utilizzato, per l'appunto, per riparare ad un disastro di grosse proporzioni, non per i normali backup e restore. Per questo si tengono in genere anche copie locali dei dati, per avere maggiori prestazioni nel caso in cui i backup locali siano disponibili, in genere quando non succede un disastro.
jepessen18 Marzo 2021, 08:59 #10
Originariamente inviato da: Rubberick
Ma, mi domando soprattutto per le dimensioni medio piccole non conviene avere un backup remoto aggiornato di un sistema di vm che possono essere rimesse su in tempi brevi dovessero saltare i server fisici dove le vm originali girano? non è un vero disaster recovery ma mi sembra un ottimo compromesso


Intanto in genere non e' una buona idea, lo spazio di una macchina virtuale e' decisamente maggiore di quello occupato 'solamente' dal backup dei dati. Quindi se paghi lo spazio di archiviazione potrebbe non essere una situazione conveniente. Inoltre il backup remoto dove lo metti? Perche' se devi metterlo in un sito a parte allora e' la stessa cosa di mettere i backup dei dati in un sito a parte, non cambia niente. Potrebbe avere senso avere uno snapshot di un server per evitare di dover reinstallare a mano tutti i programmi, nel caso fosse una cosa complessa, da rimettere su nel caso si faccia casini con i programmi, ma fare la stessa cosa anche per i dati non mi pare una mossa intelligentissima.

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^