L'evento I/O 2024 di Google ha preso il via martedì con l'annuncio di numerosi nuovi prodotti di intelligenza artificiale.
OpenAI potrebbe aver tentato di superare Google con la rilascio di GPT-4o lunedì, ma il keynote del Google I/O 2024 è stato ricco di annunci interessanti.
Ecco una panoramica dei principali progressi dell'intelligenza artificiale, dei nuovi strumenti e dei prototipi che Google sta sperimentando.
Chiedi foto
Google Foto, il servizio di archiviazione e condivisione di foto di Google, sarà ricercabile tramite query in linguaggio naturale con Ask Photos. Gli utenti possono già cercare oggetti o persone specifiche nelle loro foto, ma Ask Photos porta questo servizio a un livello superiore.
Sundar Pichai, CEO di Google, ha mostrato come sia possibile utilizzare Ask Photos per ricordare il numero di targa della propria auto o per fornire un feedback sui progressi delle capacità natatorie di un bambino.
Alimentato da GeminiAsk Photos comprende il contesto delle immagini ed è in grado di estrarre il testo, creare compilazioni di evidenziazioni o rispondere a domande sulle immagini memorizzate.
Con oltre 6 miliardi di immagini caricate su Google Photos ogni giorno, Ask Photos avrà bisogno di un'enorme finestra contestuale per essere utile.
E se le vostre foto potessero rispondere alle vostre domande? 🤔 A #GoogleIO Oggi abbiamo annunciato Ask Photos, una nuova funzione di Google Photos che fa proprio questo. Ask Photos è il nuovo modo di cercare le vostre foto con l'aiuto di Gemini. #AskFoto https://t.co/KhPeCauFAf pic.twitter.com/3MZg55SgdD
- Google Foto (@googlephotos) 14 maggio 2024
Gemini 1,5 Pro
Pichai ha annunciato che Gemini 1,5 Pro con una finestra contestuale di 1M token sarà disponibile per Gemini Utenti avanzati. Ciò equivale a circa 1.500 pagine di testo, ore di audio e un'ora intera di video.
Gli sviluppatori possono iscriversi ad una lista d'attesa per provare Gemini 1.5 Pro con un'impressionante finestra di contesto da 2M che sarà presto disponibile a livello generale. Pichai afferma che questo è il prossimo passo nel viaggio di Google verso l'obiettivo finale di un contesto infinito.
Gemini La versione 1.5 Pro ha inoltre migliorato le prestazioni di traduzione, ragionamento e codifica e sarà veramente multimodale grazie alla capacità di analizzare video e audio caricati.
"Ha fatto centro".
"Questo cambia tutto".
"È un'esperienza sconvolgente".
"Mi sembrava di avere un superpotere".
"Sarà fantastico".Ascoltate gli sviluppatori che hanno sperimentato Gemini 1.5 Pro con una finestra contestuale di 1 milione di token. #GoogleIO pic.twitter.com/odOfI4lvOL
- Google (@Google) 14 maggio 2024
Spazio di lavoro Google
Il contesto ampliato e le funzionalità multimodali consentono Gemini estremamente utile se integrato con Google Workspace.
Gli utenti possono utilizzare query in linguaggio naturale per chiedere Gemini domande relative alle loro e-mail. La demo ha fornito l'esempio di un genitore che chiede un riepilogo delle e-mail recenti della scuola del proprio figlio.
Gemini sarà anche in grado di estrarre i punti salienti e rispondere alle domande sulle riunioni di Google Meet della durata massima di un'ora.
NotebookLM - Panoramica dell'audio
Google ha rilasciato TaccuinoLM l'anno scorso. Permette agli utenti di caricare i propri appunti e documenti di cui NotebookLM diventa un esperto.
È estremamente utile come guida o tutor di ricerca e Google ha mostrato un aggiornamento sperimentale chiamato Audio Overview.
Audio Overview utilizza i documenti sorgente in ingresso e genera una discussione audio basata sul contenuto. Gli utenti possono unirsi alla conversazione e usare il parlato per interrogare NotebookLM e guidare la discussione.
NotebookLM! Mi piace molto questo progetto, il progetto Arcades alimentato dall'intelligenza artificiale. Con la multimodalità di Gemini Pro 1.5, è in grado di creare automaticamente discussioni audio sul materiale di partenza aggiunto alle sorgenti. pic.twitter.com/IhhSfj8AqR
- Dieter Bohn (@backlon) 14 maggio 2024
Non si sa ancora quando Audio Overview verrà distribuito, ma potrebbe essere di grande aiuto per chi vuole un tutor o una cassa di risonanza per risolvere un problema.
Google ha anche annunciato LearnLM, una nuova famiglia di modelli basati su Gemini e ottimizzato per l'apprendimento e l'istruzione. LearnLM alimenterà NotebookLM, YouTube, la ricerca e altri strumenti didattici per renderli più interattivi.
La demo è stata molto impressionante, ma sembra già che alcune delle errori commessi da Google con il suo originale Gemini I video di rilascio si sono insinuati in questo evento.
La demo di notebooklm non è in tempo reale. Avrei preferito che avessero definito questa aspettativa senza seppellirla in una nota a piè di pagina con il carattere più piccolo possibile. pic.twitter.com/tGN5i3fsVD
- Delip Rao e/σ (@deliprao) 14 maggio 2024
Agenti AI e Progetto Astra
Pichai afferma che gli agenti AI alimentati da Gemini saranno presto in grado di gestire le nostre banali attività quotidiane. Google sta prototipando agenti che saranno in grado di funzionare su tutte le piattaforme e i browser.
L'esempio che Pichai ha fornito è stato quello di un utente che ha istruito Gemini per restituire un paio di scarpe e poi l'agente deve lavorare su più e-mail per trovare i dettagli pertinenti, registrare il reso con il negozio online e prenotare il ritiro con un corriere.
Demis Hassabis ha presentato Project Astra, il prototipo di assistente AI conversazionale di Google. La dimostrazione delle sue capacità multimodali ha lasciato intravedere un futuro in cui l'IA risponde alle domande in tempo reale sulla base di un video in diretta e ricorda i dettagli di un video precedente.
Hassabis ha detto che alcune di queste funzioni verranno introdotte nel corso dell'anno.
Da tempo stiamo lavorando per realizzare un agente AI universale che possa essere veramente utile nella vita di tutti i giorni. Oggi a #GoogleIO abbiamo mostrato i nostri ultimi progressi in questo senso: Il Progetto Astra. Ecco un video del nostro prototipo, ripreso in tempo reale. pic.twitter.com/TSGDJZVslg
- Demis Hassabis (@demishassabis) 14 maggio 2024
IA generativa
Google ha dato un'occhiata agli strumenti di intelligenza artificiale generativa per immagini, musica e video su cui sta lavorando.
Google ha presentato Imagen 3, il suo generatore di immagini più avanzato. Secondo quanto riferito, risponde in modo più accurato ai dettagli delle richieste sfumate e fornisce immagini più fotorealistiche.
Hassabis ha detto che Imagen 3 è il "miglior modello di Google per il rendering del testo, che ha rappresentato una sfida per i modelli di generazione delle immagini".
Oggi presentiamo Imagen 3, DeepMind?ref_src=twsrc%5Etfw”>@GoogleDeepMindil modello di generazione di immagini più efficiente mai realizzato. Capisce i suggerimenti nel modo in cui le persone scrivono, crea immagini più fotorealistiche ed è il nostro miglior modello per il rendering del testo. #GoogleIO pic.twitter.com/6bjidsz6pJ
- Google (@Google) 14 maggio 2024
Music AI Sandbox è un generatore di musica AI progettato per essere uno strumento professionale di creazione musicale collaborativa, piuttosto che un generatore di brani completi. Sembra un ottimo esempio di come l'IA possa essere utilizzata per creare buona musica con un umano alla guida del processo creativo.
Veo è il generatore di video di Google che trasforma messaggi di testo, immagini o video in clip di un minuto a 1080p. Consente inoltre di inviare messaggi di testo per apportare modifiche al video. Veo sarà altrettanto valido quanto Sora?
Google distribuirà il suo watermarking digitale SynthID a testi, audio, immagini e video.
Trillium
Tutte queste nuove funzionalità multimodali richiedono una grande potenza di elaborazione per addestrare i modelli. Pichai ha presentato Trillium, la sesta iterazione delle sue Tensor Processing Unit (TPU). Trillium offre una potenza di calcolo più che quadrupla rispetto alla precedente generazione di TPU.
Trillium sarà disponibile per i clienti del cloud computing di Google entro la fine dell'anno e renderà le soluzioni di NVIDIA GPU Blackwell disponibile all'inizio del 2025.
Ricerca AI
Google integrerà Gemini nella sua piattaforma di ricerca, mentre si muove verso l'utilizzo dell'intelligenza artificiale generativa per rispondere alle query.
Con l'AI Overview, una query di ricerca produce una risposta completa, raccolta da più fonti online. In questo modo Google Search diventa più un assistente di ricerca che un semplice sito web che può contenere la risposta.
Gemini consente a Google Search di utilizzare un ragionamento a più livelli per scomporre domande complesse e multiparte e restituire le informazioni più rilevanti da più fonti.
GeminiLa comprensione dei video consentirà presto agli utenti di utilizzare un video per interrogare Google Search.
Questo sarà ottimo per gli utenti di Google Search, ma probabilmente si tradurrà in molto meno traffico per i siti da cui Google ottiene le informazioni.
Questa è la Ricerca nella Gemini era. #GoogleIO pic.twitter.com/JxldNjbqyn
- Google (@Google) 14 maggio 2024
Inoltre, sarà possibile porre domande con video, direttamente nella Ricerca. Prossimamente. #GoogleIO pic.twitter.com/zFVu8yOWI1
- Google (@Google) 14 maggio 2024
Gemini 1,5 Flash
Google ha annunciato un modello leggero, più economico e veloce chiamato Gemini 1,5 Flash. Google afferma che il modello è "ottimizzato per le attività più ristrette o ad alta frequenza in cui la velocità del tempo di risposta del modello è più importante".
Gemini 1,5 Flash costerà $0,35 per milione di gettoni, molto meno dell'$7 che si dovrebbe pagare per usare Gemini 1,5 Pro.
Ognuno di questi progressi e nuovi prodotti merita un post a sé. Pubblicheremo gli aggiornamenti non appena saranno disponibili ulteriori informazioni o quando avremo modo di provarli personalmente.