CPU in throttling nei datacenter Google? Colpa di un problema "particolare"

CPU in throttling nei datacenter Google? Colpa di un problema "particolare"

Alcune ruote rotte sotto un rack di Google hanno interrotto il flusso del refrigerante e causato un picco di temperatura nelle CPU, che per preservarsi sono andate in throttling. Un caso particolare che ha indotto Google a prendere accorgimenti.

di pubblicata il , alle 18:41 nel canale Cloud
GoogleGoogle Cloud
 

Quando i servizi di Google non funzionano bene, viene subito da pensare a un problema della nostra connessione o alla peggio a qualche intoppo tecnico ai server, un malfunzionamento di un componente hardware o un aggiornamento dell'infrastruttura.

Siamo abituati così bene che difficilmente ci verrebbe da pensare che un server di Google potrebbe non funzionare al meglio a causa di alcune ruote rotte che hanno innescato a una reazione a catena che ha minato il funzionamento di alcuni servizi. Detta così sembra una barzelletta, ma è stata proprio Google a raccontare l'accaduto in un post sul proprio blog dedicato al cloud, illustrando come anche nelle migliori infrastrutture l'imprevisto, anche quello meno probabile, sia sempre dietro l'angolo.

Ma cosa è successo di preciso? Improvvisamente, un ingegnere del team dedicato all'affidabilità dei siti ha ravvisato un picco di errori su alcuni server deputati allo stoccaggio in cache dei contenuti a cui gli utenti accedono di frequente. I server sono stati immediatamente messi offline per limitare l'impatto sugli utenti, destinando al compito altri sistemi. Dopodiché è partita la caccia al problema, inizialmente da remoto.

Per prima cosa gli ingegneri di Google hanno identificato alcuni errori di rete BGP (border gateway protocol) che suggerivano come l'intoppo non fosse legato al router ma ai server stessi. Ulteriori approfondimenti hanno fatto emergere messaggi kernel che indicavano una riduzione della frequenza di lavoro delle CPU. Gli ingegneri, infine, hanno scoperto che i sistemi malfunzionanti erano isolati ai server di un singolo rack.

Incapaci di capire a distanza il motivo per cui le CPU causavano errori del kernel, gli ingegneri hanno chiesto ai dipendenti presenti nel datacenter di verificare fisicamente la situazione. Con sorpresa, i lavoratori si sono trovati davanti a un rack inclinato in avanti, a causa di una serie di ruote rotte, probabilmente a causa del peso eccessivo del rack stesso.

L'inclinazione del rack interrompeva il corretto flusso del refrigerante, facendo aumentare la temperatura delle CPU fino al punto da innescare il cosiddetto throttling, ossia la riduzione della frequenza operativa - e di conseguenza un calo delle prestazioni - come misura di preservazione della CPU stessa.

Temendo che il problema potesse essere diffuso, Google ha sostituito tutti i rack che potevano essere vulnerabili allo stesso problema. Lo spiacevole evento ha indotto la casa di Mountain View a riconsiderare il modo in cui sposta i nuovi rack nei suoi datacenter durante l'espansione o la creazione di una infrastruttura.

6 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
nx-9919 Marzo 2020, 09:51 #1
Meno male che erano ancora presenti dei dipendenti.
Manolo De Agostini19 Marzo 2020, 13:47 #2
Originariamente inviato da: nx-99
Meno male che erano ancora presenti dei dipendenti.


Nicodemo Timoteo Taddeo19 Marzo 2020, 14:44 #3
Google ha sostituito tutti i rack o lo ruote da tutti i rack implicati? Perché vabbé che google fattura fantistiliardi di liardi di lliardi, ma 'nzomma...
calabar19 Marzo 2020, 19:44 #4
Tacchetti di legno sotto i rack cedevoli, ecco la soluzione!
Qarboz19 Marzo 2020, 22:23 #5
Originariamente inviato da: calabar
Tacchetti di legno sotto i rack cedevoli, ecco la soluzione!


Esatto! Anche perché cambiare i rack, oltre al costo (che per Google, comunque, potrebbe essere banale), per ognuno servono diverse ore oltre a dover spegnere i server
Manolo De Agostini20 Marzo 2020, 06:30 #6
Originariamente inviato da: Nicodemo Timoteo Taddeo
Google ha sostituito tutti i rack o lo ruote da tutti i rack implicati? Perché vabbé che google fattura fantistiliardi di liardi di lliardi, ma 'nzomma...


"The team also considered how many existing racks risk similar failures. This then resulted in a systematic replacement of all racks with the same issue, while avoiding any customer impact". Come scritto, i rack. Almeno è quello che ricavo da quanto hanno scritto. Forse non erano così tanti alla fine fine.

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^