Fastweb NeXXt AI Factory fa diventare il Super POD di NVIDIA multi-cliente
di Vittorio Manti pubblicata il 15 Luglio 2024, alle 12:41 nel canale InnovazioneRendere operativo un Super POD NVIDIA con 31 nodi DGX-H100 e 248 GPU H100 è un’operazione decisamente complessa. Mauro Romanò, Manager of ICT Engineering & Architecture FastCloud, ci spiega come è stata implementata l’infrastruttura
Durante l’inaugurazione di NeXXt AI Factory, il supercomputer dedicato all’IA di Fastweb, abbiamo intervistato Mauro Romanò, Manager of ICT Engineering & Architecture FastCloud, il vero artefice di tutta l’infrastruttura NVIDIA installata presso il data center di Aruba di Ponte San Pietro.
“Chiaramente non è qualcosa che compri e che metti a scaffale”. Questo passaggio dell’intervista riassume in modo molto efficace come non sia affatto banale costruire un’infrastruttura basata su 31 nodi NVIDIA DGX-H100 con 248 GPU H100. Nel video dell’intervista Romanò descrive i passaggi che si sono resi necessari per rendere operativa l’infrastruttura. Qui ci soffermeremo su due aspetti decisamente non scontati: come rendere accessibile a più clienti l’infrastruttura e come bilanciare i carichi di lavoro fra training e inferenza.
NeXXt AI Factory: un’infrastruttura aperta, condivisa e sicura
NVIDIA oggi ha una posizione dominante sul mercato dell’IA. Ne abbiamo parlato più volte, recentemente commentando l’annuncio di HPE dei sistemi preconfigurati per il Private Cloud AI. In particolare, per le attività di training dei large language model, i sistemi basati sulle GPU NVIDIA sono indispensabili e non c’è, oggi, una vera alternativa sul mercato.
Per chi, come Fastweb, vuole investire sull’IA, un Super POD di NVIDIA è quindi una scelta obbligata, ma questi sistemi sono pensati per essere utilizzati da un unico cliente per effettuare il training degli LLM. Non sono pensati per condividere le risorse su diversi clienti e quindi non ci sono strumenti pronti all’uso per compartimentare le risorse e permettere a più clienti di utilizzarle in modo autonomo e sicuro. “Il nostro obiettivo è di fornire alla comunità tutta questa potenza computazionale” sottolinea Romanò, che sta lavorando con il suo team per sviluppare una serie di strumenti che permetteranno l’accesso contemporaneo e compartimentato a diversi clienti. “Abbiamo già pronte più soluzioni adeguate a diversi standard, dal medio all'altissimo livello di sicurezza, come fossero delle soluzioni private, e andremo a metterle in campo subito dopo l'estate”.
GPU NVIDIA H100: pensate per il training, da sfruttare anche per l’inferenza
Le GPU NVIDIA H100 sono molto costose, servono competenze specifiche per essere implementate e sfruttate al meglio in ambito IA. Il loro compito principale, è giusto ripeterlo, è fare training di LLM. Romanò ci tiene a rimarcare che Fastweb, essendo un’azienda che deve generare profitto, deve trovare tutti i modi possibili per sfruttare l’infrastruttura e quindi è convinto che, in determinati scenari, GPU di questa classe possano essere molto efficaci anche per l’inferenza. “Più l'applicazione è demanding, più in realtà le DGX o comunque macchine analoghe non sono un lusso ma qualcosa di assolutamente necessario.”
NeXXt AI Factory non è quindi il primo Super POD NVIDIA a essere installato in Italia, diventa anche una piattaforma per implementare soluzioni inedite, per la condivisione dell’infrastruttura e per l’inferenza.
0 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoDevi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".