Oltre NVIDIA: i server di Red Hat AI accelerano l'inferenza coi chip AI AWS Inferentia2 e AWS Trainium3 di AWS
di Alberto Falchi pubblicata il 10 Dicembre 2025, alle 16:33 nel canale IA business
La collaborazione tra Red Hat e Amazon Web Services rende possibile un'inferenza IA più efficiente grazie al supporto di Red Hat AI Inference Server su chip proprietari AWS. L'integrazione con OpenShift e Ansible, il contributo a vLLM e llm-d e la spinta alla community open source delineano un percorso per ridurre costi e latenza nei carichi di lavoro di IA
A oggi, c'è un leader incontrastato per accelerare i calcoli per l'addestramento e l'inferenza dell'IA: NVIDIA. L'azienda guidata da Jensen Huang è infatti il punto di riferimento per i colossi dell'IA. Stanno però nascendo alternative anche sull'hardware, come i chip AWS Inferentia2 e AWS Trainium3 sviluppati da Amazon Web Services. Se oggi rappresentano ancora una nicchia, a breve le soluzioni alternative a NVIDIA rappresenteranno il 40% del mercato, secondo IDC.
Red Hat vuole farsi trovare pronta per questo momento e ha stretto una collaborazione con AWS per accelerare i calcoli della piattaforma Red Hat AI proprio coi chip sviluppati da Amazon.
Red Hat e AWS uniscono le forze sull'IA

Gli aspetti chiave della collaborazione tra Red Hat e AWS riguardano in primo luogo l’esecuzione di Red Hat AI Inference Server, basato su vLLM, sui chip AWS, inclusi AWS Inferentia2 e AWS Trainium3. In questo modo viene fornito un livello di inferenza comune in grado di supportare qualsiasi modello di intelligenza artificiale generativa, permettendo ai clienti di ottenere prestazioni più elevate, minore latenza e maggiore convenienza economica nel ridimensionamento delle implementazioni di IA in produzione, con un rapporto prezzo/prestazioni fino al 30-40% inferiore rispetto alle attuali istanze comparabili Amazon EC2 basate su GPU.
Un secondo elemento riguarda l'integrazione dell’IA su Red Hat OpenShift. Red Hat ha lavorato con AWS per sviluppare un AWS Neuron Operator per Red Hat OpenShift, Red Hat OpenShift AI e Red Hat OpenShift Service on AWS, la piattaforma applicativa completa e completamente gestita su AWS. Questo consente ai clienti di disporre di un percorso più fluido, supportato e integrato per eseguire carichi di lavoro di intelligenza artificiale sfruttando gli acceleratori AWS.

La collaborazione punta anche a semplificare l’accesso e l’implementazione. Grazie al supporto dei chip AI di AWS, Red Hat offrirà ai clienti che utilizzano Red Hat su AWS un accesso più diretto e agevole ad acceleratori ad alta capacità e molto richiesti. In parallelo, Red Hat ha reso disponibile la soluzione Ansible certificata amazon.ai per Red Hat Ansible Automation Platform, che permette di orchestrare in modo automatizzato i servizi AI su AWS. Infine, un tassello importante è il contributo alla comunità upstream. Red Hat e AWS stanno lavorando insieme per ottimizzare un plugin dedicato ai chip per l'IA di AWS in upstream su vLLM. In qualità di principale contributore commerciale a vLLM, Red Hat si impegna a renderlo pienamente abilitato su AWS per accelerare sia l’inferenza sia l’addestramento dei modelli di intelligenza artificiale. vLLM è anche il motore di llm-d, un progetto open source pensato per fornire inferenza su larga scala e oggi disponibile come funzionalità supportata commercialmente all’interno di Red Hat OpenShift AI.
"Abilitando il nostro Red Hat AI Inference Server di livello enterprise basato sull’innovativo framework vLLM con i chip AWS AI, consentiamo alle aziende di implementare e scalare i carichi di lavoro di IA con maggiore efficienza e flessibilità”, commenta Joe Fernandes, vice president e general manager, AI Business Unit di Red Hat. “Facendo tesoro della tradizione open source di Red Hat, questa collaborazione mira a rendere l’IA generativa più accessibile ed economica in tutti gli ambienti cloud ibridi”.
“Le aziende richiedono soluzioni che offrano prestazioni eccezionali, efficienza dei costi e libertà di scelta operativa per i carichi di lavoro AI mission-critical”, dichiara Colin Brace, vice president, Annapurna Labs di AWS. “AWS ha progettato i chip Trainium e Inferentia per rendere l’inferenza e l’addestramento dell’IA ad alte prestazioni più accessibili ed economici. La nostra collaborazione con Red Hat fornisce ai clienti un percorso supportato per l’implementazione della genAI su larga scala , combinando la flessibilità dell’open source con l’infrastruttura AWS e acceleratori per l'IA appositamente progettati per accelerare il time-to-value dalla fase pilota alla produzione”.











Le soluzioni FSP per il 2026: potenza e IA al centro
AWS annuncia European Sovereign Cloud, il cloud sovrano per convincere l'Europa
Aetherflux e Lockheed Martin insieme per inviare energia elettrica senza cavi dallo Spazio sulla Terra e la Luna
SpaceX sta proseguendo i test della terza versione del razzo spaziale Starship, lancio forse a febbraio
Axiom Space ha mostrato un nuovo video delle tute spaziali AxEMU per le missioni Artemis







0 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoDevi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".