AMDIntelligenza ArtificialeSostenibilità

Data center e intelligenza artificiale: non solo GPU. Il ruolo chiave delle CPU AMD

di pubblicata il , alle 12:56 nel canale data Data center e intelligenza artificiale: non solo GPU. Il ruolo chiave delle CPU AMD

Sebbene si pensi che l'IA sia alimentata da sole GPU, la realtà è che le CPU giocano ancora un ruolo chiave nei data center, anche quelli dedicati all'IA. Avere processori efficiente, permette di abbattere i consumi energetici, e le relative emissioni. Per scoprire come si sta muovendo AMD, abbiamo intervistato Alex Troshin

 

I data center oggi hanno assunto un ruolo strategico e centrale nell'economia globale. Non solo alimentano tecnologie come cloud e IA, ma sono fondamentale per il corretto funzionamento di una moderna società digitale. Oggi, tutto quello che facciamo è totalmente affidato ai dati, che si tratti di lavoro, di svago o necessità. 

C'è però un tema fondamentale: quello della sostenibilità. I data center, in particolare quelli che accolgono infrastrutture per il supercalcolo, consumano una quantità impressionante di energia e, di conseguenza, sono fra i principali responsabili delle emissioni di CO2. Si stima che i soli data center siano responsabili dell'1% dei consumi elettrici totali a livello globale

Efficienza energetica: la chiave per realizzare data center più sostenibili

Come è possibile ridurre le emissioni dei data center quando la richiesta di potenza di calcolo è in costante e rapida crescita, trainata soprattutto dall'IA? La soluzione è puntare su CPU e GPU più efficienti, che a parità di consumi sono in grado di svolgere un numero maggiore di calcoli.

Un ambito sul quale AMD sta puntando molto con i suoi processori EPYC, che si distinguono da altre CPU proprio per essere meno assetate di energia. Secondo un recente report di Uptime Institute, il 40% dei server nei data center a livello globale ha almeno sei anni e utilizza due terzi (66%) dell’energia, generando solo il 7% della potenza di calcolo totale del mondo. Al contrario, le più recenti CPU EPYC di AMD possono svolgere lo stesso lavoro di 1.000 server obsoleti con soli 131 server AMD, offrendo soluzioni innovative già adottate da aziende, ricercatori e scienziati di spicco a livello mondiale.

Abbiamo approfondito il tema insieme ad Alex Troshin, Product Marketing Manager, EMEA, Enterprise and HPC Server Business Unit di AMD.

Edge9: Il crescente consumo energetico dei data center minaccia le numerose iniziative volte a promuovere la sostenibilità ambientale. In che modo le soluzioni AMD possono contribuire a ridurre il consumo energetico e le emissioni?

Alex_LUMI

AT: Si tratta di un problema significativo sia per i data center, già alle prese con limitazioni di potenza e aumento dei costi energetici a livello globale, sia per le aziende desiderose di integrare server per l’IA per trarre vantaggio da tutto ciò che questa tecnologia è in grado di offrire. Il problema è dovuto all’estensione dei cicli di rinnovo dell’IT da parte di aziende e fornitori che stanno passando da contratti di tre/cinque anni a cinque/sette anni, per massimizzare l’opex e ridurre i costi. Tuttavia, considerando i recenti progressi nei server in termini di packaging, nodi di elaborazione e componenti, questo approccio comporta un notevole spreco di energia. È qui che entra in gioco il consolidamento dei server, che consente – ad esempio - di ridurre il numero di macchine da 6/8 a una, a seconda dell’età del server legacy. Abbiamo clienti che sono riusciti a passare da 15 a 3 server, liberando potenza sufficiente per aggiungere un server per l’IA nel proprio rack. Altri esempi variano in base all’ambiente e a requisiti specifici, e da cliente a cliente: da 17:11, 5:1, 11:6.

Edge9: Quali sono i principali progressi introdotti nei processori EPYC di quinta generazione rispetto alle precedenti versioni in termini di IPC (Instructions Per Cycle) e di prestazioni complessive?

AT: Esistono due modalità di miglioramento delle prestazioni: clock più veloci (‘frequenza’) e maggiore lavoro durante ogni ciclo di clock-IPC (‘istruzioni per clock’). Per la serie EPYC 9005, abbiamo fatto entrambe le cose.

La serie AMD EPYC ha ottenuto un aumento medio dell’IPC del 17% su 36 carichi di lavoro di server aziendali e cloud, con un incremento ancora più significativo per i workload HPC e AI. L’introduzione del set di istruzioni AVX512 con un percorso dati completo a 512 bit ha permesso un miglioramento medio dell’IPC (‘instructions per clock’) medio del 37% per workload HPC e AI rispetto alla generazione precedente, calcolato su 24 carichi di lavoro, tra cui simulazioni come NAMD, GROMACS, e applicazioni AI come Resnet 50 e BERT.

Abbiamo inoltre aumentato le frequenze delle CPU in tutto lo stack. Ad esempio, confrontando la CPU AMD EPYC 9355 di quinta generazione con la quella 9354 di quarta generazione, la frequenza di base è stata incrementata da 3,25 GHz a 3,55 GHz e il boost clock massimo a 4,4 GHz da 3,8 GHz, mantenendo invariati il numero di core e il TDP di 280W. In questo modo è prevedibile che si ottengano maggiori prestazioni a parità di potenza, con un conseguente aumento dell’efficienza energetica.

AMD INSTINCT +EPYC Server Shot_5.png

Edge9: Quanto tempo è necessario per il ritorno dell’investimento (ROI)?

AT: La modernizzazione del data center con i processori AMD EPYC di quinta generazione a parità di prestazioni offre notevoli vantaggi in termini di efficienza e costi. Grazie a questi processori, è possibile ridurre il numero di server necessari dell’87%, e il consumo energetico del 68%, con un conseguente calo del TCO triennale del 67%. Questo approccio si traduce in un ROI immediato grazie alla diminuzione dei costi operativi - elettricità e gestione - del data center. Quando si tratta di massimizzare le prestazioni per applicazioni commerciali, come l’editing video o il rendering, l’adozione di soluzioni basate su EPYC di quinta generazione consente di svolgere queste attività fino a 3 volte più velocemente.  In questo modo le aziende possono avviare un maggior numero di nuovi progetti e accelerare il time to market e il time to revenue. Di conseguenza, il ROI diventa più rapido. La tempistica dipende dal campo di applicazione e dal caso d’uso del cliente: basti vedere l’ultimo caso di Criteo, che ritengo interessante proprio per l’entità dell’implementazione e dei benefici.

Edge9: Per garantire la massima efficienza dei workload AI e HPC, in che modo AMD collabora con i principali cloud provider o hyperscaler?

AT: Stiamo collaborando con i principali hyperscaler, a partire da un lavoro di co-ingegnerizzazione e ottimizzazione delle prestazioni volto a risolvere le criticità dei clienti. Ad esempio, AWS fornisce unità AMD EPYC fin dalla prima generazione, mentre GCP è stato in grado di introdurre e fornire i servizi di Google Cloud Confidential Computing incentrati su AMD dal 2022, e Microsoft Azure ha introdotto per la prima volta macchine virtuali basate su MI300X. Nel complesso, aiutiamo i clienti del cloud a sbloccare le proprie prestazioni e a trarre maggior valore dai propri investimenti IT.

Edge9: Da un lato, la sostituzione dei server riduce i costi e il consumo di energia, ma dall’altro, l’hardware vecchio deve essere smontato e riciclato, con conseguenti costi energetici. Ci sono momenti in cui ha senso aspettare prima di rinnovare l’hardware?

AT: Sì, certo. Lo scenario ideale è quello di avere a disposizione un hardware all’avanguardia e più efficiente; tuttavia, questo non è sempre realistico. A volte, l’upgrade potrebbe non portare benefici significativi, mentre l’investimento risulterebbe molto reale. Per questo motivo, consiglio sempre di identificare le metriche chiave di valutazione, come le prestazioni (specifiche per l’applicazione, il caso d’uso e lo scenario del cliente), l’efficienza energetica, il TCO e altri elementi. È tutto soggettivo. Con questo intendo dire che abbiamo clienti per i quali il 2-3% di prestazioni in più si traduce in un ROI significativo e in nuove entrate, per cui investono immediatamente. Allo stesso tempo, ne abbiamo altri che non ritengono vantaggioso o non possono permettersi un upgrade che offra un aumento delle prestazioni del 10%, ma potrebbero valutarlo se comportasse una riduzione del consumo energetico superiore al 20%. Quindi, è sempre tutto personale e soggettivo.

Edge9: Come evolveranno i data center nei prossimi cinque anni, soprattutto in termini di densità di calcolo e sostenibilità energetica?

AT: La domanda di calcolo è destinata a crescere, considerato il costante aumento della quantità di dati generati e lo sviluppo di tecnologie ad alta intensità di calcolo, come l’intelligenza artificiale. Questo comporta sfide e opportunità. Ad esempio, in AMD continuiamo a spingere non solo sulle prestazioni ma anche sull’efficienza energetica, fornendo quindi le prestazioni più interessanti per watt. L’azienda ha un obiettivo 30x25, vale a dire garantire un aumento dell’efficienza energetica pari a 30 volte per i processori e gli acceleratori che alimentano i server per l’addestramento all’intelligenza artificiale e l’HPC dal 2020 al 2025, e con l’ultimo update 2024 abbiamo raggiunto un miglioramento di circa 28,3 volte rispetto all’obiettivo fissato nel 2020 utilizzando gli acceleratori AMD Instinct™ MI300X abbinati alle CPU host AMD EPYC™ 9575F.

Edge9: L’intelligenza artificiale è al centro della rivoluzione tecnologica e AMD è all’avanguardia con i suoi acceleratori Instinct. Ma cosa possono fare le CPU? E quanto è importante la CPU affinché gli acceleratori funzionino al meglio?

AT: Anche se abbiamo soluzioni NPU e motori dedicati nella nostra roadmap e nell’offerta ai clienti privati (ad esempio, Ryzen AI), non sempre è necessario un acceleratore specifico per l’IA: anche le CPU tradizionali possono farlo. Nello spazio delle CPU per server, le prestazioni che si possono ottenere sono strabilianti e, con le giuste ottimizzazioni software, sono più che sufficienti per alcuni dei casi d’uso tradizionali, come il riconoscimento di immagini di base, il rilevamento di spam e oggetti, i chatbot o l’inferenza negli LLM. Per ulteriori risultati ed esempi, si veda l’ultimo blog di ZenDNN e ulteriori dettagli sull’inferenza della CPU con i benchmark.

ai inference

Poi, dato che è possibile farlo su hardware diversi, si tratta di stabilire se è economicamente conveniente e scalabile, oltre che efficiente dal punto di vista energetico. In alcuni casi, le CPU o le FPGA sono le uniche opzioni disponibili a causa dei vincoli di potenza o di spazio. Per quanto riguarda gli acceleratori, l’abbinamento con la giusta CPU è fondamentale per alimentare correttamente le GPU e non incorrere in un collo di bottiglia. Ecco perché EPYC 9575F è stato progettato per essere un processore host-node per l’intelligenza artificiale ad alte prestazioni, con velocità fino a 5GHz. Con alcuni test, l’uso del processore giusto (9575F in questo caso) è in grado di aumentare le prestazioni del sistema GPU fino al 10-20% a seconda del tipo di carico di lavoro o del benchmark. Ulteriori dettagli sono disponibili qui.

0 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
^