Fujitsu A64FX: ARM arriva nei supercomputer con prestazioni di alto livello

Fujitsu A64FX: ARM arriva nei supercomputer con prestazioni di alto livello

Fujitsu ha presentato ufficialmente il processore A64FX, basato sull'architettura ARMv8 e in grado di esprimere prestazioni elevate con un'alta efficienza energetica grazie a soluzioni tecniche innovative

di pubblicata il , alle 10:41 nel canale Device
FujitsuARM
 

Il supercomputer "K", sviluppato da Fujitsu e messo in opera nel 2011, è stato il più potente supercomputer al mondo grazie alle sue migliaia di core basati su architettura SPARC. Nove anni dopo, e a qualche mese dallo spegnimento ufficiale di K, Fujitsu annuncia Fugaku, informalmente noto come Post-K. Il nuovo supercomputer non si posizionerà al primo posto per potenza di calcolo, ma per efficienza energetica: un risultato ottenuto grazie all'impiego dei processori Fujitsu A64FX, basati su architettura ARM e progettati con soluzioni tecniche inusuali ma in grado, stando all'azienda, di fornire prestazioni maggiori dei processori x86 con consumi minori.

Fujitsu A64FX: i processori ARM arrivano nei supercomputer

Sono passati quasi due anni dall'annuncio ufficiale di Fujitsu A64FX: il processore ha nel frattempo acquistato contorni più definiti che comprendono soluzioni tecniche inusuali e implementazioni proprietarie di Fujitsu per risolvere alcuni problemi tipici del mondo HPC.

Uno dei principali ostacoli nella progettazione di sistemi HPC sta nel contenere al minimo lo spostamento dei dati: il limite principale all'incremento nella potenza di calcolo sta infatti nella velocità di spostamento dei dati tra processori e memoria e tra dischi e memoria. Per risolvere questo problema Fujitsu è ricorsa all'uso di memoria HBM2 installata direttamente sui processori: non è dunque presente la classica RAM installata nei socket DIMM, ma sono invece installati 32 GB di memoria HBM2 in ciascun processore.

Sebbene tale quantitativo possa apparire esiguo, l'elemento che fa la differenza è quello della banda passante: la memoria HBM2 permette di arrivare a 1 terabyte al secondo, mentre l'interconnessione ToFu, sviluppata da Fujitsu, collega sia i core che i processori con una banda di 400 Gbps.

Il processore può essere utilizzato come una CPU "tradizionale", ma può anche essere impiegato per effettuare calcoli per cui normalmente si utilizzano delle GPU grazie a delle estensioni vettoriali dell'architettura ARMv8 sviluppate in collaborazione con ARM. Fujitsu ha poi inserito istruzioni specifiche per carichi di lavoro IA che permettono all'A64FX di ottenere prestazioni elevate con consumi ridotti.

Grazie a queste caratteristiche Fugaku raccoglie l'eredità di K ed è già ora il supercomputer più efficiente al mondo, nonostante sia ancora in fase prototipale.

Oltre al Fugaku, il Fujitsu A64K vivrà poi anche in altri supercomputer: l'azienda ha infatti stretto un accordo con Cray, ora di proprietà di HPE, per creare soluzioni HPC dotate del processori. I server Cray CS500 saranno disponibili entro la metà del 2020 e supporteranno l'ambiente di sviluppo Cray già utilizzato per le macchine basate su processori x86, minimizzando dunque l'impatto della nuova architettura sullo sviluppo del software.

Il piano di Fujitsu e del RIKEN Institute prevede inoltre di fornire la tecnologia utilizzata per il supercomputer Fugaku anche come infrastructure as a service, nonché come nodi da vendere ai vari fornitori di servizi cloud. Ulteriori informazioni sul processore e sui piani di Fujitsu sono disponibili a questo indirizzo.

ARM sembra quindi destinata a ritagliarsi uno spazio di rilievo all'interno del mondo HPC e del mondo server, con le evoluzioni del settore che tratteggiano un quadro in cui i processori ARM competeranno sempre più strettamente con quelli x86. Non è detto che questi ultimi non riutilizzino poi alcune delle innovazioni proposte da ARM nelle proprie architetture: la guerra tra RISC e CISC è ben lontana dalla fine, ma si preannuncia interessante.

3 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
supertigrotto07 Aprile 2020, 11:40 #1
Ma la guerra fra cisc e risc è già finita da un bel po',nessuna delle due architetture è ancora pura.
Ambedue le architetture hanno sconfinato nell'ambito dell'altra.
Complex e Reduced nei tempi moderni non hanno ormai nessun significato concreto,le differenze si sono assottigliate con l'aumento della complessità nei numeri dei transistor e nelle istruzioni.
LMCH09 Aprile 2020, 13:22 #2
Originariamente inviato da: supertigrotto
Ma la guerra fra cisc e risc è già finita da un bel po',nessuna delle due architetture è ancora pura.
Ambedue le architetture hanno sconfinato nell'ambito dell'altra.
Complex e Reduced nei tempi moderni non hanno ormai nessun significato concreto,le differenze si sono assottigliate con l'aumento della complessità nei numeri dei transistor e nelle istruzioni.


Non è proprio così, il tuo ragionamento funziona solo se si considerano gli x86 che col tempo sono diventati processori superscalari out-of-order risc-like con un decoder delle istruzioni cisc che le spezzetta in operazioni risc-like.

Se invece si guarda a come si stanno evolvendo le architetture hardware, si nota che le cose sono molto più complesse di un semplice "cisc contro risc".
Ad esempio, adesso c'è molto interesse per le architetture EDGE (Explicit Data Graph Execution) ed inoltre c'è pure un evoluzione a livello di implementazione verso layout che puntano ad "accorciare i fili". Con l'aumentare della scala d'integrazione il limite non è più la velocità di switching dei transistor, ma l'aumento della resistenza nei collegamenti (diventando più ridotti in sezione, aumenta la resistenza per unità di lunghezza, che contribuisce a limitare la frequenza massima raggiungibile).
Ed è da questi elementi che ad esempio si giunge a realizzare cpu come la Prodigy di Tachyum che mira a rimpiazzare sia le cpu "tradizionali" che le GPU nei cloud e nei supercomputer.
cdimauro09 Maggio 2020, 21:42 #3
Originariamente inviato da: supertigrotto
Ma la guerra fra cisc e risc è già finita da un bel po',nessuna delle due architetture è ancora pura.
Ambedue le architetture hanno sconfinato nell'ambito dell'altra.
Complex e Reduced nei tempi moderni non hanno ormai nessun significato concreto,le differenze si sono assottigliate con l'aumento della complessità nei numeri dei transistor e nelle istruzioni.

E invece non è affatto così.

Sono i RISC che ormai praticamente non esistono più come design, perché... sono diventati dei CISC. Basti vedere i "pilastri" su cui si fondavano i RISC e i CISC, e confrontarli coi processori attuali: vedresti che i CISC hanno mantenuto le loro caratteristiche, ma i RISC no (hanno preso a piene mani dai CISC).

Questo nonostante accademici e non continuano a spacciare che non esistano più design CISC, e che quindi abbiano vinto i RISC. Queste sono pure balle marchettare, che purtroppo continuano a essere propinate ancora oggi.
Originariamente inviato da: LMCH
Non è proprio così, il tuo ragionamento funziona solo se si considerano gli x86 che col tempo sono diventati processori superscalari out-of-order risc-like con un decoder delle istruzioni cisc che le spezzetta in operazioni risc-like.

Questo è che avviene internamente, e tra l'altro succede persino con alcuni RISC (che spezzettano istruzioni complessi in altre più semplici).

Ma vedi sopra: i pilastri (differenze fra le macrofamiglie) di RISC e CISC vengono rispettati soltanto da questi ultimi.
Se invece si guarda a come si stanno evolvendo le architetture hardware, si nota che le cose sono molto più complesse di un semplice "cisc contro risc".
Ad esempio, adesso c'è molto interesse per le architetture EDGE (Explicit Data Graph Execution) ed inoltre c'è pure un evoluzione a livello di implementazione verso layout che puntano ad "accorciare i fili". Con l'aumentare della scala d'integrazione il limite non è più la velocità di switching dei transistor, ma l'aumento della resistenza nei collegamenti (diventando più ridotti in sezione, aumenta la resistenza per unità di lunghezza, che contribuisce a limitare la frequenza massima raggiungibile).
Ed è da questi elementi che ad esempio si giunge a realizzare cpu come la Prodigy di Tachyum che mira a rimpiazzare sia le cpu "tradizionali" che le GPU nei cloud e nei supercomputer.

Ma non in tutti gli ambiti; tutt'altro.

Si tratta di architetture specializzate, che richiamano anche i VLIM. Non sono generali, e quindi non rimpiazzeranno mai i processori tradizionali. Troveranno, al solito, la loro nicchia in cui prospereranno.

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^