Il data center di Francoforte di AWS ha problemi, EC2 finisce down per ore
di Riccardo Robecchi pubblicata il 11 Giugno 2021, alle 18:11 nel canale Public CloudIl data center di AWS situato a Francoforte ha avuto problemi nella notte: una serie di malfunzionamenti, iniziata con un guasto nell'impianto di condizionamento, ha causato lo spegnimento dei server delle istanze EC2
I data center europei sembrano non avere tregua e dopo l'incendio avvenuto nel data center di Strasburgo di OVHcloud, è AWS ad avere avuto problemi nella notte tra il 10 e l'11 giugno. Nello specifico, un'Availability Zone nel centro di Francoforte ha riscontrato un problema che ha portato a un'interruzione nei servizi EC2, RDS, CloudFormation, Kinesis Data Streams e Kinesis Firehose dell'azienda.
Problemi per AWS a Francoforte con un down durato ore
AWS ha comunicato che nella notte tra il 10 e l'11 giugno il suo data center a Francoforte ha riscontrato problemi che hanno portato alla mancata disponibilità per molte istanze EC2 e a problemi con RDS, CloudFormation, Kinesis Data Streams e Kinesis Firehose.
Il problema è nato da un malfunzionamento nell'impianto di condizionamento dell'aria del data center: a causa di ciò la temperatura si è innalzata oltre il livello di guardia e i server e le componenti di rete come gli switch hanno iniziato a spegnersi. Un ulteriore malfunzionamento nel rilevatore di incendi ha poi fatto sì che venisse avviata la procedura antincendio: il personale è stato evacuato e sono stati usati agenti chimici per rimuovere l'ossigeno dall'aria. A questo punto sono intervenuti i vigili del fuoco, che hanno verificato che non era presente un incendio e hanno avviato le procedure per il ripristino delle condizioni ambientali.
Una volta compiuto questo passaggio, i tecnici di AWS sono potuti rientrare nell'edificio e ripristinare i servizi, con solo alcune macchine che sono state danneggiate dalle alte temperature. L'intera vicenda è durata circa sei ore, durante le quali molti servizi sono stati irraggiungibili. Al momento l'azienda scrive "il sistema di soppressione degli incendi che si è attivato rimane disabilitato. Questo sistema è progettato per richiedere la presenza di fumo per attivarsi e non avrebbe dovuto farlo. Rimarrà inattivo finché non saremo in grado di determinare cosa l'ha fatto scattare impropriamente. Nel frattempo, misure alternative di soppressione degli incendi sono impiegate per proteggere il data center."
Per quanto le tecnologie avanzino, i malfunzionamenti restano comunque una questione seria per i gestori dei data center e anche colossi come AWS non sono immuni da problemi. Per evitare che tali eventi abbiano un impatto eccessivamente negativo sull'operatività delle aziende è sempre consigliabile tenere un backup dei dati in un secondo data center fisicamente separato, nonché all'interno della propria organizzazione. In questo modo si può procedere alle operazioni di disaster recovery e mantenere i propri sistemi operativi anche in caso di eventi catastrofici.
22 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infofra attacchi di hacker e problemi o errori di configurazione è un mezzo disastro..
fra attacchi di hacker e problemi o errori di configurazione è un mezzo disastro..
Come al solito chi è andato down è perchè non aveva sistemi replicati come si dovrebbe fare. Qua il cloud non c'entra, non c'era nulla di cloud nei servizi andati down. Il cloud è solo un modo più carino per indicare un server online.
Poi se tu su AWS non imposti failover e replicazione dei dati è un problema tuo, non del servizio.
fra attacchi di hacker e problemi o errori di configurazione è un mezzo disastro..
ci sono sempre state le interruzioni solo che non venivano pubblicizzate come adesso ....
se guardi i dati vedi che quasi tutti i grossi servizi di cloud hanno 99.9999% di uptime la sfiga è quando quello 0.00001% capita contemporaneamente su più server e la succedono i disastri
Quante ore hanno in realtà perso?
99.9999%... ahahha... solo teoria... vorrebbe dire 31.6 secondi di inattività media annua.Se nella notte avessero perso tra allarmi, incendio, pompieri, ecc. anche solo 8h e 46' (31560 secs) , sono scesi al 99.9%, ovvero quasi 1000 ordini di grandezza .
Sì, ma la percentuale la dichiarano sull'intero sistema: se butti dentro tutti gli altri server di AWS che sono rimasti online rientri.
Il problema, assurdo, è un altro:
- Il sistema antincendio non doveva attivarsi.
- I sistemi di AC nelle sale sono sempre ALMENO 3, indipendenti, e con 2 si deve potere lavorare comunque.
- Passati i 27°C doveva attivarsi un allarme, le macchine funzionano almeno fino a 35°C senza problemi.
- Durante questo lasso di tempo si dovrebbe attivare la ventilazione forzata verso l'esterno che non fa salire la temperatura oltre i 35°C.
Quindi o hanno gravi problemi di progettazione (dubito) oppure è successo qualcos altro.
Ma come fai a rientrare nel 99.9xxx se poi ammetti 'interruzione nei servizi EC2, RDS, CloudFormation, Kinesis Data Streams e Kinesis Firehose dell'azienda"? Vuol dire che qualcosa a livello di ridondanza non ha funzionato.
Altrimenti è come dire che se una macelleria ha il S. Daniele che questa mattina è andato da male, è irrilevante perchè tutto il resto del consorzio S. Daniele non ha problemi. Ma chi è in quella macelleria, in quel momento, frega poco del resto del consorzio sia al di là che al di qua del banco....
Forse è successo altro e per ora non è il caso di dirlo.
Ma come fai a rientrare nel 99.9xxx se poi ammetti 'interruzione nei servizi EC2, RDS, CloudFormation, Kinesis Data Streams e Kinesis Firehose dell'azienda"? Vuol dire che qualcosa a livello di ridondanza non ha funzionato.
Altrimenti è come dire che se una macelleria ha il S. Daniele che questa mattina è andato da male, è irrilevante perchè tutto il resto del consorzio S. Daniele non ha problemi. Ma chi è in quella macelleria, in quel momento, frega poco del resto del consorzio sia al di là che al di qua del banco....
Esatto: siccome loro dichiarano la "disponibilità totale di S. Daniele" se una sola macelleria non lo fornisce a livello globale è comunque un up del 99,999%
La ridondanza costa tantissimo e non è così banale come si crede
Rispettando questa regola, utente X, neanche si sarebbe accorto del disservizio.
Che senso ha usare provider Cloud come AWS se poi ragioni come negli 90?
Forse non hai letto: i servizi che sono andati giù sono di Amazon, dell'host, non dei clienti
Per quello dicevo che deve esserci altro dietro che giustamente non viene sbandierato.
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".