Red Hat lancia AI Inference Server: qualunque modello, su qualunque acceleratore, su qualunque cloud
di Riccardo Robecchi pubblicata il 26 Maggio 2025, alle 14:41 nel canale IA business
Red Hat AI Inference Server punta a offrire un ambiente in cui eseguire i modelli d'IA indipendentemente da ciò che sta sotto di esso, e dunque indipendentemente da GPU o ambiente cloud
L'intelligenza artificiale generativa è diventata pervasiva in pochissimo tempo e già moltissime aziende la impiegano nelle proprie attività. Gestirla correttamente è però complesso e per questo Red Hat ha annunciato il lancio di Red Hat AI Inference Server, che punta a semplificare la scelta dei modelli, la loro implementazione e la successiva gestione.
Red Hat lancia AI Inference Server
Implementare correttamente l'intelligenza artificiale generativa implica tante scelte: il modello, l'acceleratore su cui eseguirlo, il sistema alla base, il cloud in cui si trova tale sistema... Red Hat AI Inference Server è pensato per offrire una base comune su cui adagiare il modello prescelto, indipendentemente dall'acceleratore e dall'operatore di cloud prescelto, con strumenti che consentono di ottimizzarne l'esecuzione.
AI Inference Server si avvale del progetto vLLM, avviato dall'università di Berkeley nel 2023 e in grado di supportare moltissimi modelli: sono inclusi DeepSeek, Google Gemma, Llama, Llama Nemotron, Mistral e Phi, tra gli altri. Tutti questi modelli vengono ottimizzati in modo tale da supportare più GPU, contesti di input più grandi e batching continuo. AI Inference Server offre poi strumenti per comprimere i modelli ed effettuarne l'affinamento, così da migliorarne l'accuratezza riducendone al contempo i requisiti in termini di potenza di calcolo (e, quindi, di consumo energetico).
Red Hat AI Inference Server è pensato per essere eseguito sia come servizio a sé stante, sia come parte di Red Hat Enterprise Linux AI e Red Hat OpenShift AI.
"L'inferenza è ciò che fa avverare le promesse dell'IA generativa, dove alle interazioni degli utenti corrispondono risposte accurate e veloci da un dato modello, ma [l'inferenza] dev'essere messa a disposizione in modo efficace ed efficiente dal punto di vista dei costi", ha affermato Joe Fernandes, vice presidente e general manager della AI Business Unit di Red Hat. "Red Hat AI Inference Server è pensato per incontrare la domanda di sistemi d'inferenza ad alte prestazioni e reattivi mantenendo bassa la richiesta di risorse, così da fornire uno strato comune per l'inferenza che supporti qualunque modello, su qualunque acceleratore e in qualunque ambiente."
0 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoDevi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".