L'IA a supporto della cultura: le iniziative di Microsoft per salvaguardare lingue, monumenti e...
di Alberto Falchi pubblicata il 24 Luglio 2025, alle 11:45 nel canale IA business
Per garantire che la ricchezza culturale dell’Europa sia rappresentata e accessibile nel mondo digitale, Microsoft sta espandendo l’iniziativa Culture AI, che aiuta a salvaguardare lingue, monumenti e artefatti attraverso repliche digitali e collaborazione sui dati
L'IA nasce come strumento per aumentare la produttività e per automatizzare e velocizzare i lavori più ripetitivi e a basso valore aggiunto. E ha un problema: "parla" prevalentemente inglese. Non che altre lingue non siano supportate: praticamente tutte le piattaforma di IA supportano le principali lingue. La maggior parte dei dati di addestramento, però, è per svariati motivi in inglese, e per questo motivo gli LLM lavorano al meglio proprio con la lingua di Albione.
Microsoft vuole cambiare questo paradigma e ha dato il via a due iniziative, una per accelerare l'addestramento degli LLM anche su altri idiomi, e una seconda per salvaguardare la cultura tramite repliche digitali.
Microsoft punta su Strasburgo per l'innovazione
Microsoft ha annunciato di aver spostato i team di due dei suoi centri di innovazione in Francia, più precisamente a Strasburgo. Una scelta non casuale, dato che la città ospita la sede di alcune istituzioni europee. L'obiettivo di questa operazione, come spiega Brad Smith, Vice Chair e Presidente di Microsoft, è quello di "espandere la disponibilità di dati multilingue per lo sviluppo dell’intelligenza artificiale, sfruttando la piattaforma Microsoft Azure, le competenze tecniche e le partnership in tutta Europa per promuovere una rappresentazione linguistica più inclusiva nei modelli di intelligenza artificiale".
Ciò si rende necessario in quanto, come detto, la maggior parte del materiale usato per l'addestramento delle IA è in inglese, e soprattutto proveniente dal mondo statunitense. Per questo, inevitabilmente, gli LLM tendono ad avere una prospettiva più vicina alla cultura degli USA, e Microsoft è al lavoro per ampliare la "visione" delle IA. Nell’ambito di questo impegno, Microsoft pubblicherà un bando per presentare proposte mirato ad ampliare l’offerta di contenuti digitali per 10 lingue europee.
"Questo sviluppo asimmetrico dei modelli linguistici ha conseguenze economiche reali. Quando i sistemi di intelligenza artificiale non sono in grado di comprendere o rispondere nella lingua di una regione, limitano l’accesso ai servizi e alle opportunità, con impatti negativi sia per le imprese locali che per la crescita economica in generale", afferma Smith.
Microsoft espande l'iniziativa Culture AI
Culture AI è un progetto che si pone l'obiettivo di salvaguardare lingue, monumenti e artefatti attraverso repliche digitali e collaborazione sui dati. Microsoft negli anni ha contribuito al progetto conservando digitalmente icone del patrimonio culturale come l’antica Olimpia in Grecia, Mount St. Michel in Francia, la Basilica di San Pietro a Roma e l’80° anniversario dello sbarco alleato sulla spiaggia in Normandia. Ora l'azienda ha annunciato di voler espandere l'iniziativa, e dopo l'estate inizierà a lavorare con il Ministero della Cultura francese e la società francese Iconem per creare una replica digitale di Notre Dame.
Perché è importante addestrare LLM su altre lingue
Per quanto l'inglese sia una delle lingue più parlate al mondo, sono in pochi a utilizzarla come lingua madre. Basti pensare che solo in Europa ci sono 24 lingue ufficiali, alcune delle quali rappresentano una sparuta percentuale dei contenuti sul web: lingue come il danese, il finlandese, lo svedese e il greco, per esempio, rappresentano meno dello 0,6% dei contenuti online. E questo, secondo Smith, ha conseguenze concrete: "poiché gli LLM fanno molto affidamento sui contenuti web per la formazione", spiega Smith. "Quando una lingua non ha una presenza online sufficiente, rischia di essere esclusa dai futuri servizi di intelligenza artificiale. Sebbene i modelli più grandi e generici possano gestire più lingue, possono comunque perdere le sfumature linguistiche, il contesto culturale e la profondità regionale necessari per applicazioni veramente inclusive. Gli LLM addestrati su dati limitati sono meno accurati, hanno allucinazioni ed errori più grandi, hanno difficoltà con il vocabolario e riflettono più pregiudizi".
Per colmare il divario linguistico che ancora oggi penalizza molte lingue europee nello sviluppo dell’intelligenza artificiale, Microsoft ha annunciato una serie di iniziative concrete che puntano ad aumentare la disponibilità di dati multilingue e a potenziare la ricerca nel campo dell’IA in Europa.
Al centro del progetto, la collaborazione con il laboratorio ICube dell’Università di Strasburgo – polo di eccellenza in ingegneria, informatica e imaging – dove Microsoft insedierà un team dedicato composto da esperti del Microsoft Open Innovation Center (MOIC) e del Microsoft AI for Good Lab. Il gruppo opererà in sinergia con oltre 70 ingegneri, data scientist e specialisti di policy dell’ecosistema Microsoft, con l’obiettivo di sviluppare soluzioni AI più inclusive e linguisticamente rappresentative.
La collaborazione prevede il finanziamento di due ricercatori post-dottorato e fino a un milione di dollari in crediti Azure. Il lavoro partirà dai dati già raccolti da Microsoft, che verranno messi a disposizione della comunità europea – sviluppatori open source compresi – in modo trasparente e accessibile. Tra questi, corpora testuali multilingue derivati da GitHub e dataset vocali.
Fondamentale in questo percorso sarà anche il ruolo di Hugging Face, la piattaforma di riferimento per la comunità IA open source, con cui MOIC e GitHub collaboreranno per ospitare e distribuire i dataset. Si tratta di un’estensione della partnership già attiva tra Microsoft e Hugging Face, che ha recentemente portato al rilascio del modello SmoILM3: un potente modello multilingue da 3 miliardi di parametri, ottimizzato per sei lingue – inglese, francese, spagnolo, tedesco, italiano e portoghese – e già integrato nel catalogo di Azure per una distribuzione semplificata.
Parallelamente, Microsoft collaborerà con Common Crawl, uno dei più estesi archivi pubblici di dati web. Il MOIC finanzierà un’iniziativa che prevede il coinvolgimento di madrelingua europei per arricchire il dataset Common Crawl con contenuti annotati in diverse lingue del continente.
Ma il passo più ambizioso riguarda il lancio di un bando europeo, disponibile dal 1° settembre 2025 sul sito dell’AI for Good Lab, per sostenere la produzione e la condivisione responsabile di contenuti digitali in dieci lingue europee. L’iniziativa punta in particolare a rafforzare le lingue meno rappresentate nei contenuti online, come estone, alsaziano, slovacco, greco e maltese. I progetti selezionati riceveranno supporto tecnico, crediti Azure e accesso alle competenze ingegneristiche del team Microsoft.
0 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoDevi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".