Google I/O 2024: il protagonista è Gemini
di Alberto Falchi pubblicata il 15 Maggio 2024, alle 12:21 nel canale dataGemini si rinnova: arriverà un modello con una finestra di contesto da 2 milioni di token e un nuovo assistente personale, Project Astra, in grado di rispondere alle domande semplicemente "guardando" il mondo tramite la videocamere dallo smartphone
Il 14 maggio si è aperto Google I/O, l'evento annuale durante il quale Big G svela le novità di prodotto. Quest'anno al centro della scena c'è Gemini, il modello di intelligenza artificiale multimodale che si pone in competizione con GPT-4 di OpenAI e che si rinnova con moltissime nuove funzioni, alcune delle quali all'apparenza davvero notevoli, anche se prima di dare un giudizio sarà necessario testarle a fondo.
Le novità per Google Worskpace
Gemini è da qualche tempo integrato in Google Workspace, un po' come accade con Copilot di Microsoft, anche se almeno inizialmente solo per gli utenti statunitensi. Ora è stato reso disponibile a più persone, e potenziato dal modello Gemini 1,5 Pro. Non è l'unica novità: grazie a una finestra contestuale più estesa e a un ragionamento più avanzato, Gemini è in grado di rispondere a una gamma più vasta di domande e di fornire risposte più approfondite. Inoltre, è facile iniziare con i riassunti che appaiono nel pannello laterale, i suggerimenti di prompt e altro ancora.
Gemini 1,5 Pro disponibile per tutti. In arrivo la versione Flash
Sulla carta indubbiamente Gemini vanta numeri importanti, a partire dalla context window, che arriva a ben 1 milione di token. Questo solo per la versione attualmente disponibile a livello globale. Gli sviluppatori, infatti, possono già accedere a Gemini 1,5 Pro, che alza ulteriormente la soglia, arrivando a 2 milioni di token per la finestra di contesto.
In Google AI Studio e Vertex AI, inoltre, è anche disponibile Gemini 1,5 Flash, un modello semplificato rispetto a quello standard ma che offre un vantaggio non trascurabile: una latenza ridottissima. E sul palco di Google I/O sono stati mostrati alcuni esempi di utilizzo concreto dell'assistente Project Astra: basta aprire la finestra, inquadrare con lo smartphone quello che si vede e chiedere a Google "dove mi trovo?" per avere rapidamente una risposta. E ci sono funzionalità in grado di stupire. Basta inquadrare del codice visibile su uno schermo nella stanza e chiedere di cosa si tratti per avere una descrizione di quali funzioni richiama quello specifico frammento di codice e a cosa può servire. Usato in questa maniera, cioè inquadrando l'ambiente circostante, Gemini non si limita a dare risposte su quanto inquadrato in quello specifico momento: alla domanda "non ricordo dove ho messo gli occhiali" l'IA risponde puntualmente, indicando la posizione in cui li ha visti l'ultima volta.
Un altro esempio che ci ha colpito è quando durante la presentazione uno degli speaker ha portato un giradischi il cui braccio tendeva a tornare sempre alla base. Inquadrando il giradischi mentre avveniva il problema e chiedendo a cosa può essere dovuto, l'assistente ha fornito una serie di possibili risposte, riconoscendo anche correttamente lo specifico modello utilizzato.
Impressionante, c'è poco da dire. Rimane il fatto che si è trattato di demo mostrate per stupire e non è detto che all'atto pratico il funzionamento sia così rapido e impeccabile come mostrato dal palco dell'evento. Per scoprirlo bisognerà aspettare che sia resa disponibile su Search Labs, cosa che dovrebbe avvenire a breve.
Arriva la sesta generazione di chip Trillium per accelerare l'IA
I nuovi chip Trillium di sesta generazione portano un incremento di potenza di calcolo di 4,7 volte rispetto ai loro predecessori. Sono state raddoppiate l'ampiezza di banda della High Bandwidth Memory (HBM) e dell'Interchip Interconnect (ICI). Il nuovo chip Trillium è dotato inoltre di un chip SparseCore di terza generazione: si tratta di un acceleratore specializzato per l’elaborazione di carichi di lavoro avanzati di classificazione e raccomandazione. I TPUs Trillium rendono possibile addestrare la prossima ondata di modelli di base più velocemente e servire quei modelli con latenza ridotta e costi inferiori. Google ha anche strizzato l'occhio alla sostenibilità: le TPU Trillium sono oltre il 67% più efficienti dal punto di vista energetico rispetto alle TPU v5e.
Gemini potenzia le ricerche su Google
I Riepiloghi dell'AI non non sono una novità in assoluto, essendo già testabili in anteprima sui labs. Ora sono accessibili a tutti. In pratica, si ha la possibilità di fare domande complesse al motore di ricerca, concatenandone più di una. E ottenendo risposte più esaustive: non link a fonti, bensì una pagina web personalizzata sulla base del contesto, contenente svariati approfondimenti sul tema, già pronti da consultare. Si può per esempio pianificare una vacanza. Od ottenere informazioni sui ristoranti con menu a base di pesce e punteggi degli utenti elevati nella zona dove ci si trova, così da scremare subito eventuali luoghi ai quali non siamo interessati.
Grazie alla finestra di contesto più ampia, Gemini può far riferimento a set di dati di maggiori dimensioni. Potenziata anche l'app mobile Gmail, che ora è in grado di riassumere le e-mail e le conversazioni, offrire risposte contestuali e aiutare nella stesura di nuove mail, suggerendo automaticamente le risposte sulla base dei dati personali dell'utente.
Chiedi a Foto!
Gemini entra anche nella galleria di immagini di Google con Ask Photos. Chiedi semplificando la ricerca di informazioni quando si ha a che fare con archivi di migliaia e migliaia di scatti. Un esempio? Esclamando "Ho dimenticato la mia targa" l'IA andrà a fare una ricerca fra le tante immagini, riconoscendo (o provando a farlo) la macchina di proprietà dell'utente e indicandogli la risposta corretta.
Ancora, si potrà chiedere all'IA di selezionare il miglior scatto effettuato in uno specifico luogo. O ancora con "quali sono stati i temi usati per le feste di compleanno di Lena?", l'IA analizzerà i dettagli, come le decorazioni che ci sono sullo sfondo o sulla torta, per generare una risposta coerente.
In conclusione
Le novità presentate durante il Google I/O sono davvero numerose, e spaziano su numerosi aspetti. Dalle funzionalità per utenti a quelle per gli sviluppatori a quelle per artisti, come Veo, il modello più evoluto di Google per la generazione di video a partire da prompt testuali, e di Music AI Sandbox, un assistente per la creazione di basi musicali.
Google, insomma, vuole colmare il divario accumulato con OpenAI e sta investendo tantissimo per potenziare Gemini che, dal nostro punto di vista, fino a oggi non si è dimostrato al livello della concorrenza. Ma la situazione potrebbe cambiare radicalmente.
Grazie alla finestra di contesto più ampia, Gemini può far riferimento a set di dati molto più grandi. In questo modo, se la scuola in cui va un figlio dovesse inviare un’ondata di email ogni mese, sarà possibile utilizzare il pannello laterale di Gmail per chiedere cose come: “riassumi le email della Scuola Elementare XXV aprile” e ottenere immediatamente i dettagli più importanti e capire cosa serve fare.
0 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoDevi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".