La nuova era della conoscenza: come si addestra l'intelligenza artificiale, spiegata da IBM
di Riccardo Robecchi pubblicato il 09 Agosto 2024 nel canale dataSi sempre parlare sempre più spesso d'intelligenza artificiale, in tutte le forme. Ma cosa c'è davvero dietro questa tecnologia che appare a tutti gli effetti rivoluzionaria? Per capirne di più e scoprire come si addestrano e funzionano i modelli d'intelligenza artificiale abbiamo parlato con Alessandro Curioni di IBM
Negli ultimi due anni, ovvero da quando OpenAI ha reso disponibile ChatGPT al grande pubblico, si è parlato sempre più di modelli d’intelligenza artificiale, di addestramento, di inferenza, e di molti altri aspetti “dietro le quinte”. Raramente, però, c’ stata occasione di approfondire come questi aspetti funzionino realmente e, dunque, in che modo operi l’intelligenza artificiale. Abbiamo avuto occasione di parlare con Alessandro Curioni, Vice President Europe and Africa e Director of IBM Research Zurich, per capire più a fondo come funziona l’IA, perché la rivoluzione in corso stia avvenendo proprio ora e quali sono le implicazioni del modo in cui l’IA gestisce le informazioni.
Le macchine che imparano: la rivoluzione dietro l’IA
“Negli ultimi due anni avete visto la super-rivoluzione che è avvenuta nell’IA con l’avvento dei modelli generativi. È stata una grande novità che è diventata evidente a tutti con ChatGPT, ma la realtà è che quello che si vede con il ChatGPT di turno, a livello consumer, è solo parte della trasformazione tecnologica che stiamo vivendo. Una trasformazione che parte dalla comprensione del linguaggio naturale da parte delle macchine e si estende a comprendere altri domini della conoscenza umana. E’ questa la rivoluzione del self-supervised learning”, dice Curioni. Letteralmente significa “apprendimento auto-controllato”: è una tecnica che consente alla macchina di apprendere e che ha soppiantato interamente quelle che esistevano prima per via dei vantaggi che offre. Ma dove sta la grande novità di questa tecnica?
“Con il self-supervised learning le macchine apprendono dai dati direttamente il modello, cioè cosa i dati significano e la conoscenza che questo significato racchiude. E sono, quindi, in grado di utilizzare questa conoscenza appresa per eseguire notevoli compiti. Con il deep learning tradizionale si usano tecniche di apprendimento supervisionate (supervised learning) in cui i dati per istruire la macchina sono etichettati opportunamente: quello che bisogna fare è annotare questi dati a mano; annotando questi dati li si classifica e li si relaziona, creando quindi una rappresentazione della conoscenza che poi il modello di AI impara. Ora, con il self-supervised learning, questa rappresentazione della conoscenza si impara direttamente dai dati senza più necessità di etichettarli”
Se dunque prima bisognava catalogare ed etichettare a mano i dati, con un grande dispendio di tempo ed energie, con il self-supervised learning ciò non è più necessario e i modelli imparano la struttura (e il significato) direttamente dai dati, senza che sia necessario dare loro queste informazioni.
Il vantaggio di questo approccio sta dunque nel fatto che non è più necessario catalogare ed etichettare manualmente i dati. Finora, infatti, per addestrare i modelli d’IA era necessario che fossero le persone a dire alla macchina quali fossero il significato e il contesto dei dati: la macchina, da sola, non era in grado di capirlo e gli unici a poterla istruire erano gli umani. Ciò significa, però, che era necessario investire moltissimo tempo per catalogare grandi quantità di dati.
L’“effetto collaterale” di questo fatto è che le aziende e gli istituti di ricerca che addestravano le IA lo facevano su un campo specifico per contenere i costi, e dunque le IA erano in grado di effettuare solo un numero molto limitato di compiti. Il ritorno d’investimento era, dunque, limitato. Questo è il motivo per cui l’IA non era finora riuscita a diffondersi in maniera esplosiva come ha invece fatto negli ultimi due anni: addestrare i modelli era complicato e molto costoso, e portava a risultati applicabili solo in pochi campi.
Il nuovo modello di addestramento rende invece possibile creare modelli più grandi e più versatili, che possono dunque essere impiegati in più ambiti e hanno, dunque, un ritorno d’investimento migliore, nonostante i costi rimangano comunque elevati in senso assoluto.
Il problema del bias, nella lingua e oltre
ChatGPT è la forma d’IA generativa che conosciamo meglio e che ha portato il settore nel complesso alla notorietà di cui gode ora. Si tratta, com’è noto, di un cosiddetto LLM, dall’inglese large language model, ovvero “grande modello linguistico”. È dunque un modello specializzato nella lingua, per quanto sia poi in grado di operare anche su altri tipi di dati e di strutture (ad esempio, la matematica). Ma questi modelli linguistici non sono gli unici: esistono altre tipologie che possono essere usate per imparare, interpretare e manipolare dati di altro tipo.
Curioni ci racconta che il self-supervised learning può essere applicato non solo ai dati linguistici, ma a qualsiasi dato che abbia una struttura; una volta stabilito ciò, è possibile addestrare un modello con tali dati, “senza dover fare quasi nessuna annotazione”, ci dice Curioni. “Della lingua si conosce già la rappresentazione migliore: la grammatica e la semantica. Ma se si chiede al modello di imparare da zero, senza fornirgli la rappresentazione, ma facendo in modo che sia il modello a ricostruirla, questa rappresentazione creata dal modello diventa più generale. Pensiamo alle varie lingue, ci sono tante cose in comune tra una lingua e un’altra nella struttura linguistica: addestrando un modello con un po’ di tedesco, un po’ di inglese, un po’ d’italiano, la struttura della lingua viene imparata direttamente, in modo più generale e più efficiente che ipotizzando una rappresentazione di una singola lingua. Partendo da una singola lingua si otterrebbe un modello meno flessibile e rigido su una singola struttura linguistica.”
Questo è un problema che è noto a chiunque abbia provato a imparare un’altra lingua: applicare le regole della propria a un’altra porta molto spesso a errori, o almeno a incomprensioni. Basti pensare a un esempio semplice come il posizionamento degli aggettivi: in italiano è flessibile, ma è preferito quello dopo i sostantivi; in inglese, invece, è molto rigido ed è previsto esclusivamente quello prima (con le poche eccezioni del caso). È possibile fare molti altri esempi, ma già solo questo fa capire come applicare dunque le regole di una lingua a un’altra non funzioni.
Anche noi, come persone, dobbiamo dunque passare per un processo molto simile a quello descritto da Curioni per le IA: ovvero, dobbiamo imparare a desumere le regole della lingua che vogliamo apprendere direttamente dal suo contesto. È quanto facciamo per la nostra madrelingua da infanti. E in effetti, quando si impara una nuova lingua, il metodo migliore è proprio quello (per quanto risulti difficile) di cercare di imparare le sue regole dal contesto e di non cercare affatto corrispondenze o similitudini con quella di partenza.
E se è già vero che dobbiamo cercare di limitare quanto più possibile di applicare le regole della nostra lingua quando impariamo lingue indoeuropee, la famiglia cui appartiene anche l’italiano, è ancora più vero quando si esce da quest’ambito. Basti pensare a una lingua relativamente facile come lo swahili, che usa i prefissi anziché i suffissi per determinare, ad esempio, il numero (singolare/plurale: “bambino” è “mtoto”, “bambini” è “watoto”).
Questo concetto si può applicare agli altri ambiti per parlare del bias, termine inglese che significa sia “propensione” sia “pregiudizio”: così come un italofono avrà un bias che lo porta, per riprendere l’esempio precedente, a mettere gli aggettivi dopo i sostantivi, così anche nel trattare dati di altro tipo possiamo avere una percezione influenzata da altri fattori che può portare però a una rappresentazione distorta, o comunque inesatta, dei dati e, di conseguenza, della realtà.
Ma se è già difficile affrontare il problema quando si parla di insegnare nuove lingue alle persone, nonostante la flessibilità che caratterizza queste ultime, come è possibile farlo con i modelli di intelligenza artificiale?
La risposta è, come ci spiega Curioni, che i metodi non sono poi molto differenti rispetto a quelli che vengono impiegati classicamente per insegnare alle persone: si parte da una raccolta di frasi, a cui vengono tolte delle parole in modo casuale; si chiede dunque al modello di ricostruire la frase inserendo la parola rimossa e si dice poi al modello se la risposta era corretta (in questo modo dando più peso a quella parola) oppure no (riducendo così il peso). “Operando in questo modo su tutte le frasi e su molte delle parole presenti nelle frasi, il modello generativo automaticamente migliora nella generazione delle parole giuste”, ci spiega Curioni. Ripetendo quest’operazione su grande scala, il modello impara la grammatica puramente per una questione statistica, come probabilità che in un certo contesto si usi una certa sequenza di parole.
“Pensiamo ad esempio all’applicazione Duolingo, che ripete una, due, tre, mille volte una parola; il ‘peso’ [della parola] cresce e tu impari. Il meccanismo con cui apprendono le persone è più sofisticato, però la metodologia è esattamente la stessa”, dice Curioni. Possiamo anche citare i classici esercizi da libro di testo in cui una parola viene rimossa da una frase e bisogna inserire quella giusta, ma il concetto è chiaro. Curioni ci spiega che la stessa cosa può essere fatta con le immagini: si toglie un pezzetto di un’immagine e si chiede al modello di generarlo; si dà poi un punteggio di accuratezza, e il modello impara così a creare immagini che rispecchiano quelle reali. Dalle immagini si può passare a qualunque altro tipo di dato strutturato. Il prodotto dell’IA resta un’estrapolazione, ma è un’estrapolazione di elevata qualità.
Oltre la lingua: l’IA come rappresentazione dei dati
Un’affermazione che ci aveva molto colpito durante la conferenza Nutanix Next a maggio riguardava il fatto che i modelli d’intelligenza artificiale non sono altro che una rappresentazione dei dati (in quel caso aziendali). Curioni spiega come ciò sia vero per qualunque tipo di dato, al di là di quelli linguistici che abbiamo imparato a conoscere più direttamente grazie all’uso dei chatbot come ChatGPT.
Curioni fa l’esempio di un fluido in movimento: è possibile creare un modello addestrandolo usando delle misurazioni di tale movimento, ottenendo così una rappresentazione che non fa però uso esplicito delle leggi fisiche basate sulla matematica che abbiamo elaborato nel corso del tempo. “Lo trovo molto interessante, perché si può raggiungere addirittura il livello filosofico: è possibile creare una rappresentazione del mondo reale.”
“Quella che noi chiamiamo fisica, basata sulla matematica, è una rappresentazione molto semplice, che funziona e che possiamo comprendere come umani. Noi diciamo che le equazioni di Navier-Stokes, utilizzate per la fluidodinamica e semplici a sufficienza da poter essere scritte su un foglio, descrivono in teoria come si muove un fluido. Anche quelle sono astrazioni e rappresentazioni che noi come uomini, nel corso di centinaia di migliaia di anni, abbiamo sviluppato per spiegare il fenomeno, ma non è detto che siano la migliore rappresentazione: è solo quella che noi riusciamo a capire. Si può costruire una rete neurale fondamentale, creata sui dati sperimentali, che descrive lo stesso fenomeno; non si riesce a capirla semplicemente perché è troppo complessa. Ma ciò non significa che sia meno interessante o importante dell’equazione scritta sul foglio.”
Il dibattito sulla percezione della realtà, sull’essenza della conoscenza, sulla conoscibilità dell’Universo continua da migliaia di anni, dai filosofi dell’Antica Grecia e forse da prima ancora; il fatto che siano possibili altre forme di conoscenza, per la prima volta realmente esterne all’uomo, rende questo dibattito ancora più attuale e significativo.
L’IA come strumento per comprendere la realtà, e oltre
La conoscenza della realtà può essere fine a se stessa, ed è nobile perseguire questo scopo al solo fine di migliorare l’umanità, ma si può affermare che diventi più significativa quando ha dei risvolti pratici.
Nel caso dell’intelligenza artificiale, questi non mancano di certo, e non parliamo di usare ChatGPT per generare testi di vario tipo. Si può usare l’intelligenza artificiale per trovare soluzioni, o quantomeno idee che portino a nuove soluzioni, per moltissimi ambiti. La stessa IBM ha sviluppato RoboRXN, un modello d’IA che permette, a partire da un composto chimico, di ricostruire le reazioni chimiche necessarie per ottenerlo. Si tratta di un rovesciamento completo della ricerca chimica, che risulta estremamente dispendiosa (in termini sia di tempo, sia di danaro) proprio perché finora ha dovuto necessariamente procedere per tentativi.
Ma non è la sola applicazione: l’Università del Michigan ha recentemente annunciato OptoGPT, un modello che consente di ottenere possibili strutture ottiche e i relativi materiali a partire dal risultato ottenuto. E sono molti altri gli esempi simili.
Le diverse modalità di funzionamento dei modelli d’intelligenza artificiale consentono loro di approcciare i problemi in maniera differente e, mettendo insieme l’approccio umano e quello delle macchine, è possibile trovare più facilmente soluzioni che prima erano irraggiungibili o, in ogni caso, molto più difficili da trovare.
L’intelligenza artificiale di nuova generazione ha già cambiato molti settori, ma i veri cambiamenti arriveranno nel corso dei prossimi anni grazie proprio alle nuove scoperte che sarà possibile fare grazie a questi strumenti. Che, quando usati responsabilmente, promettono di essere preziosissimi.
1 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoGrazie.
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".