AWSBig del CloudIntelligenza ArtificialePublic cloud

AWS rinnova lo stack dell'IA: Trainium3, UltraServers NVIDIA e un S3 riprogettato

di pubblicata il , alle 21:11 nel canale Cloud AWS rinnova lo stack dell'IA: Trainium3, UltraServers NVIDIA e un S3 riprogettato

Dal re:Invent arrivano gli annunci che aggiornano la base computazionale dell'IA su AWS, con Trainium3, UltraServers NVIDIA GB300, AI Factories per la sovranità del dato e un S3 progettato per agenti e workload multimodali

 

Nel keynote inaugurale Matt Garman, CEO di AWS, ha presentato una visione centrata sugli agenti, ma la possibilità di portare milioni di agenti operativi nei sistemi aziendali richiede un’infrastruttura completamente ripensata. La seconda ondata di annunci del re:Invent si concentra proprio sui livelli più profondi dello stack: chip, server, networking, data layer e sicurezza. È qui che AWS posiziona la base tecnica per sostenere reasoning, multimodalità e automazione avanzata.

AWS aggiorna così tutti gli strati del proprio stack: compute, networking, storage, database e servizi avanzati. Un passo che va oltre l’evoluzione incrementale: l’obiettivo è fornire alle aziende una piattaforma capace di eseguire modelli più grandi, agenti più autonomi e pipeline più dense, mantenendo al tempo stesso i requisiti di governance e performance.

Trainium3 UltraServers: il nuovo chip AWS a 3 nm per modelli su larga scala

Il lancio dei Trainium3 UltraServers segna un nuovo punto di riferimento per l’accelerazione dell'addestramento e dell'inferenza dei modelli di IA nel cloud. Il chip Trainium3, costruito su processo a 3 nm, offre fino a 4.4x più performance, 4x più efficienza energetica e quasi 4x più banda di memoria rispetto alla generazione precedente.

AWS-Garman-Keynote

Ogni UltraServer integra 144 chip Trainium3, raggiungendo oltre 362 PFLOPS in FP8, mentre la nuova infrastruttura di rete riduce la latenza tra chip a meno di 10 microsecondi. Questa combinazione permette di addestrare modelli di dimensioni superiori e di gestire workload che richiedono scambio massivo di informazioni: agenti multimodali, mixture-of-experts, reasoning a catena lunga e generazione video in tempo reale.

La progettazione è stata realizzata come sistema verticale: chip, rete, runtime e software stack lavorano in continuità. I clienti già in produzione – tra cui Anthropic, Metagenomics, Neto.ai e Splashmusic – riportano riduzioni dei costi fino al 50% e miglioramenti nell'inferenza fino a 4x. Amazon Bedrock utilizza già Trainium3 in produzione per l’addestramento e l’inferenza dei modelli, un segnale della maturità dell’architettura.

A livello di scala, AWS introduce anche UltraClusters 3.0, in grado di collegare fino a un milione di chip Trainium. Un’infrastruttura orientata ai future frontier model e ai sistemi agentici che richiedono calcolo distribuito su scala estrema.

UltraServers NVIDIA GB300: GPU per modelli da trilioni di parametri 

Accanto ai chip proprietari, AWS estende la collaborazione con NVIDIA con il lancio dei nuovi Amazon EC2 P6e-GB300 UltraServers, basati sull’architettura NVIDIA GB300 NVL72. Sono le istanze GPU più potenti mai introdotte su AWS, progettate per modelli da trilioni di parametri, reasoning esteso e workload multimodali complessi.

AWS-Garman-Keynote

Questi UltraServers offrono la più alta combinazione di memoria e compute su GPU in EC2, con un design ottimizzato per i modelli di nuova generazione, inclusi quelli conversazionali e multimodali ad alta intensità di calcolo. Come negli altri UltraServers, la piattaforma si basa sull’AWS Nitro System per isolare il carico, garantire performance stabili e integrarsi con EKS, requisito chiave per orchestrare workload containerizzati su larga scala.

I casi d’uso immediati includono ricerca scientifica, simulazioni fisiche, generazione video e ambienti multi-agente ad altissima intensità computazionale. 

AI Factories: l’infrastruttura IA arriva nei data center dei clienti

Tra gli annunci più strategici ci sono le AWS AI Factories: infrastrutture IA dedicate, installate direttamente nei data center dei clienti ma progettate, integrate e operate da AWS. È una proposta rivolta in particolare a governi, telco, difesa e grandi organizzazioni con forti requisiti di sovranità del dato e compliance regolatoria.

AWS-Garman-Keynote

Le AI Factories combinano GPU NVIDIA, chip Trainium, networking ad alta velocità, storage ottimizzato, sicurezza e servizi IA come Bedrock e SageMaker. Funzionano, di fatto, come una regione AWS privata ospitata nelle infrastrutture del cliente, mantenendo localmente i dati senza rinunciare allo stack tecnologico AWS.

Il vantaggio principale è la riduzione dei tempi di deployment: costruire infrastrutture IA avanzate richiede anni di integrazioni, mentre AWS può mettere in funzione infrastrutture di questo tipo in tempi significativamente più brevi. L’annuncio include anche il progetto con HUMAIN in Arabia Saudita, che prevede un’“AI Zone” con fino a 150.000 chip dedicati.

Un S3 riprogettato per l’IA: vector-native, oggetti da 50 TB e integrazione con ONTAP

Per supportare agenti e modelli sempre più complessi, AWS riprogetta profondamente Amazon S3, con una serie di aggiornamenti che trasformano il servizio nel data layer del reasoning e della multimodalità.

Il debutto più rilevante è S3 Vectors, che porta la capacità vector-native direttamente dentro S3. Il servizio supporta fino a due miliardi di vettori per indice e fino a 20 trilioni per bucket, con prestazioni fino a 3x superiori e costi ridotti del 90% rispetto a soluzioni dedicate. È una base fondamentale per costruire agenti che sfruttano basi vettoriali e retrieval semantico per arricchire il reasoning, oltre a sistemi di ricerca semantica, recommendation e knowledge base aziendali. 

AWS aumenta inoltre la dimensione massima degli oggetti da 5 TB a 50 TB, un’esigenza nata con la crescita dei dataset video, scientifici e geospaziali. Le S3 Batch Operations diventano fino a 10x più veloci e possono gestire fino a 20 miliardi di oggetti in un job, accelerando migrazioni di massa e processi di governance.

Le S3 Tables introducono Intelligent-Tiering per l’ottimizzazione automatica dei costi e la replica automatica cross-Region, fondamentale per team distribuiti. Infine, gli S3 Access Points supportano ora anche FSx per NetApp ONTAP, consentendo di esporre i dati ONTAP tramite un’interfaccia compatibile con S3 e di utilizzarli direttamente con i servizi IA e analytics di AWS.

GuardDuty: correlazione avanzata per ambienti agentici

Completa il quadro un aggiornamento alla sicurezza: GuardDuty Extended Threat Detection estende la copertura a EC2 ed ECS, correlando automaticamente segnali complessi – processi anomali, tentativi di persistenza, reverse shell, crypto-mining – in un unico evento critico basato su modelli IA addestrati su larga scala.

Il sistema ricostruisce la sequenza temporale dell’incidente, la mappa su MITRE ATT&CK e fornisce raccomandazioni di remediation. In ambienti in cui operano agenti autonomi e workload distribuiti, la correlazione automatizzata diventa essenziale per mantenere visibilità e controllo.

AWS-Garman-Keynote

AWS presenta così un’infrastruttura rinnovata per sostenere la prossima generazione di workload IA e agentici. Trainium3 accelera l’addestramento e l’inferenza, gli UltraServers NVIDIA gestiscono modelli di scala estrema, le AI Factories portano queste capacità nei data center dei clienti, mentre S3 diventa un data layer progettato per il reasoning. È la base tecnica che completa la visione presentata da Garman: agenti più intelligenti, sostenuti da un cloud progettato per operarli su scala globale.

0 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
^