Intelligenza ArtificialeRed HatAWSBig del Cloud

Oltre NVIDIA: i server di Red Hat AI accelerano l'inferenza coi chip AI AWS Inferentia2 e AWS Trainium3 di AWS

di pubblicata il , alle 16:33 nel canale IA business Oltre NVIDIA: i server di Red Hat AI accelerano l'inferenza coi chip AI AWS Inferentia2 e AWS Trainium3 di AWS

La collaborazione tra Red Hat e Amazon Web Services rende possibile un'inferenza IA più efficiente grazie al supporto di Red Hat AI Inference Server su chip proprietari AWS. L'integrazione con OpenShift e Ansible, il contributo a vLLM e llm-d e la spinta alla community open source delineano un percorso per ridurre costi e latenza nei carichi di lavoro di IA

 

A oggi, c'è un leader incontrastato per accelerare i calcoli per l'addestramento e l'inferenza dell'IA: NVIDIA. L'azienda guidata da Jensen Huang è infatti il punto di riferimento per i colossi dell'IA. Stanno però nascendo alternative anche sull'hardware, come i chip AWS Inferentia2 e AWS Trainium3 sviluppati da Amazon Web Services. Se oggi rappresentano ancora una nicchia, a breve le soluzioni alternative a NVIDIA rappresenteranno il 40% del mercato, secondo IDC.

Red Hat vuole farsi trovare pronta per questo momento e ha stretto una collaborazione con AWS per accelerare i calcoli della piattaforma Red Hat AI proprio coi chip sviluppati da Amazon. 

Red Hat e AWS uniscono le forze sull'IA

AWS-Garman-Trainium

Gli aspetti chiave della collaborazione tra Red Hat e AWS riguardano in primo luogo l’esecuzione di Red Hat AI Inference Server, basato su vLLM, sui chip AWS, inclusi AWS Inferentia2 e AWS Trainium3. In questo modo viene fornito un livello di inferenza comune in grado di supportare qualsiasi modello di intelligenza artificiale generativa, permettendo ai clienti di ottenere prestazioni più elevate, minore latenza e maggiore convenienza economica nel ridimensionamento delle implementazioni di IA in produzione, con un rapporto prezzo/prestazioni fino al 30-40% inferiore rispetto alle attuali istanze comparabili Amazon EC2 basate su GPU.

Un secondo elemento riguarda l'integrazione dell’IA su Red Hat OpenShift. Red Hat ha lavorato con AWS per sviluppare un AWS Neuron Operator per Red Hat OpenShift, Red Hat OpenShift AI e Red Hat OpenShift Service on AWS, la piattaforma applicativa completa e completamente gestita su AWS. Questo consente ai clienti di disporre di un percorso più fluido, supportato e integrato per eseguire carichi di lavoro di intelligenza artificiale sfruttando gli acceleratori AWS.

Red_Hat_AI_720.

La collaborazione punta anche a semplificare l’accesso e l’implementazione. Grazie al supporto dei chip AI di AWS, Red Hat offrirà ai clienti che utilizzano Red Hat su AWS un accesso più diretto e agevole ad acceleratori ad alta capacità e molto richiesti. In parallelo, Red Hat ha reso disponibile la soluzione Ansible certificata amazon.ai per Red Hat Ansible Automation Platform, che permette di orchestrare in modo automatizzato i servizi AI su AWS. Infine, un tassello importante è il contributo alla comunità upstream. Red Hat e AWS stanno lavorando insieme per ottimizzare un plugin dedicato ai chip per l'IA di AWS in upstream su vLLM. In qualità di principale contributore commerciale a vLLM, Red Hat si impegna a renderlo pienamente abilitato su AWS per accelerare sia l’inferenza sia l’addestramento dei modelli di intelligenza artificiale. vLLM è anche il motore di llm-d, un progetto open source pensato per fornire inferenza su larga scala e oggi disponibile come funzionalità supportata commercialmente all’interno di Red Hat OpenShift AI.

"Abilitando il nostro Red Hat AI Inference Server di livello enterprise basato sull’innovativo framework vLLM con i chip AWS AI, consentiamo alle aziende di implementare e scalare i carichi di lavoro di IA con maggiore efficienza e flessibilità”, commenta Joe Fernandes, vice president e general manager, AI Business Unit di Red Hat. “Facendo tesoro della tradizione open source di Red Hat, questa collaborazione mira a rendere l’IA generativa più accessibile ed economica in tutti gli ambienti cloud ibridi”.

Le aziende richiedono soluzioni che offrano prestazioni eccezionali, efficienza dei costi e libertà di scelta operativa per i carichi di lavoro AI mission-critical”, dichiara Colin Brace, vice president, Annapurna Labs di AWS. “AWS ha progettato i chip Trainium e Inferentia per rendere l’inferenza e l’addestramento dell’IA ad alte prestazioni più accessibili ed economici. La nostra collaborazione con Red Hat fornisce ai clienti un percorso supportato per l’implementazione della genAI su larga scala , combinando la flessibilità dell’open source con l’infrastruttura AWS e acceleratori per l'IA appositamente progettati per accelerare il time-to-value dalla fase pilota alla produzione”.

0 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
^