Google I/O 2024 - Ecco i punti salienti dell'AI rivelati da Google

15 maggio 2024

  • All'evento Google I/O 2024 sono stati annunciati nuovi prodotti e prototipi di Google AI
  • Gemini Pro 1.5 riceverà un aggiornamento di 2M contesti e sarà integrato in Google Workspaces
  • Sono stati presentati diversi strumenti con funzionalità multimodali e nuovi generatori di immagini, musica e video.

L'evento I/O 2024 di Google ha preso il via martedì con l'annuncio di numerosi nuovi prodotti di intelligenza artificiale.

OpenAI potrebbe aver tentato di superare Google con la rilascio di GPT-4o lunedì, ma il keynote del Google I/O 2024 è stato ricco di annunci interessanti.

Ecco una panoramica dei principali progressi dell'intelligenza artificiale, dei nuovi strumenti e dei prototipi che Google sta sperimentando.

Chiedi foto

Google Foto, il servizio di archiviazione e condivisione di foto di Google, sarà ricercabile tramite query in linguaggio naturale con Ask Photos. Gli utenti possono già cercare oggetti o persone specifiche nelle loro foto, ma Ask Photos porta questo servizio a un livello superiore.

Sundar Pichai, CEO di Google, ha mostrato come sia possibile utilizzare Ask Photos per ricordare il numero di targa della propria auto o per fornire un feedback sui progressi delle capacità natatorie di un bambino.

Alimentato da GeminiAsk Photos comprende il contesto delle immagini ed è in grado di estrarre il testo, creare compilazioni di evidenziazioni o rispondere a domande sulle immagini memorizzate.

Con oltre 6 miliardi di immagini caricate su Google Photos ogni giorno, Ask Photos avrà bisogno di un'enorme finestra contestuale per essere utile.

Gemini 1,5 Pro

Pichai ha annunciato che Gemini 1,5 Pro con una finestra contestuale di 1M token sarà disponibile per Gemini Utenti avanzati. Ciò equivale a circa 1.500 pagine di testo, ore di audio e un'ora intera di video.

Gli sviluppatori possono iscriversi ad una lista d'attesa per provare Gemini 1.5 Pro con un'impressionante finestra di contesto da 2M che sarà presto disponibile a livello generale. Pichai afferma che questo è il prossimo passo nel viaggio di Google verso l'obiettivo finale di un contesto infinito.

Gemini La versione 1.5 Pro ha inoltre migliorato le prestazioni di traduzione, ragionamento e codifica e sarà veramente multimodale grazie alla capacità di analizzare video e audio caricati.

Spazio di lavoro Google

Il contesto ampliato e le funzionalità multimodali consentono Gemini estremamente utile se integrato con Google Workspace.

Gli utenti possono utilizzare query in linguaggio naturale per chiedere Gemini domande relative alle loro e-mail. La demo ha fornito l'esempio di un genitore che chiede un riepilogo delle e-mail recenti della scuola del proprio figlio.

Gemini sarà anche in grado di estrarre i punti salienti e rispondere alle domande sulle riunioni di Google Meet della durata massima di un'ora.

NotebookLM - Panoramica dell'audio

Google ha rilasciato TaccuinoLM l'anno scorso. Permette agli utenti di caricare i propri appunti e documenti di cui NotebookLM diventa un esperto.

È estremamente utile come guida o tutor di ricerca e Google ha mostrato un aggiornamento sperimentale chiamato Audio Overview.

Audio Overview utilizza i documenti sorgente in ingresso e genera una discussione audio basata sul contenuto. Gli utenti possono unirsi alla conversazione e usare il parlato per interrogare NotebookLM e guidare la discussione.

Non si sa ancora quando Audio Overview verrà distribuito, ma potrebbe essere di grande aiuto per chi vuole un tutor o una cassa di risonanza per risolvere un problema.

Google ha anche annunciato LearnLM, una nuova famiglia di modelli basati su Gemini e ottimizzato per l'apprendimento e l'istruzione. LearnLM alimenterà NotebookLM, YouTube, la ricerca e altri strumenti didattici per renderli più interattivi.

La demo è stata molto impressionante, ma sembra già che alcune delle errori commessi da Google con il suo originale Gemini I video di rilascio si sono insinuati in questo evento.

Agenti AI e Progetto Astra

Pichai afferma che gli agenti AI alimentati da Gemini saranno presto in grado di gestire le nostre banali attività quotidiane. Google sta prototipando agenti che saranno in grado di funzionare su tutte le piattaforme e i browser.

L'esempio che Pichai ha fornito è stato quello di un utente che ha istruito Gemini per restituire un paio di scarpe e poi l'agente deve lavorare su più e-mail per trovare i dettagli pertinenti, registrare il reso con il negozio online e prenotare il ritiro con un corriere.

Demis Hassabis ha presentato Project Astra, il prototipo di assistente AI conversazionale di Google. La dimostrazione delle sue capacità multimodali ha lasciato intravedere un futuro in cui l'IA risponde alle domande in tempo reale sulla base di un video in diretta e ricorda i dettagli di un video precedente.

Hassabis ha detto che alcune di queste funzioni verranno introdotte nel corso dell'anno.

IA generativa

Google ha dato un'occhiata agli strumenti di intelligenza artificiale generativa per immagini, musica e video su cui sta lavorando.

Google ha presentato Imagen 3, il suo generatore di immagini più avanzato. Secondo quanto riferito, risponde in modo più accurato ai dettagli delle richieste sfumate e fornisce immagini più fotorealistiche.

Hassabis ha detto che Imagen 3 è il "miglior modello di Google per il rendering del testo, che ha rappresentato una sfida per i modelli di generazione delle immagini".

Music AI Sandbox è un generatore di musica AI progettato per essere uno strumento professionale di creazione musicale collaborativa, piuttosto che un generatore di brani completi. Sembra un ottimo esempio di come l'IA possa essere utilizzata per creare buona musica con un umano alla guida del processo creativo.

Veo è il generatore di video di Google che trasforma messaggi di testo, immagini o video in clip di un minuto a 1080p. Consente inoltre di inviare messaggi di testo per apportare modifiche al video. Veo sarà altrettanto valido quanto Sora?

Google distribuirà il suo watermarking digitale SynthID a testi, audio, immagini e video.

 

Trillium

Tutte queste nuove funzionalità multimodali richiedono una grande potenza di elaborazione per addestrare i modelli. Pichai ha presentato Trillium, la sesta iterazione delle sue Tensor Processing Unit (TPU). Trillium offre una potenza di calcolo più che quadrupla rispetto alla precedente generazione di TPU.

Trillium sarà disponibile per i clienti del cloud computing di Google entro la fine dell'anno e renderà le soluzioni di NVIDIA GPU Blackwell disponibile all'inizio del 2025.

Ricerca AI

Google integrerà Gemini nella sua piattaforma di ricerca, mentre si muove verso l'utilizzo dell'intelligenza artificiale generativa per rispondere alle query.

Con l'AI Overview, una query di ricerca produce una risposta completa, raccolta da più fonti online. In questo modo Google Search diventa più un assistente di ricerca che un semplice sito web che può contenere la risposta.

Gemini consente a Google Search di utilizzare un ragionamento a più livelli per scomporre domande complesse e multiparte e restituire le informazioni più rilevanti da più fonti.

GeminiLa comprensione dei video consentirà presto agli utenti di utilizzare un video per interrogare Google Search.

Questo sarà ottimo per gli utenti di Google Search, ma probabilmente si tradurrà in molto meno traffico per i siti da cui Google ottiene le informazioni.

Gemini 1,5 Flash

Google ha annunciato un modello leggero, più economico e veloce chiamato Gemini 1,5 Flash. Google afferma che il modello è "ottimizzato per le attività più ristrette o ad alta frequenza in cui la velocità del tempo di risposta del modello è più importante".

Gemini 1,5 Flash costerà $0,35 per milione di gettoni, molto meno dell'$7 che si dovrebbe pagare per usare Gemini 1,5 Pro.

Ognuno di questi progressi e nuovi prodotti merita un post a sé. Pubblicheremo gli aggiornamenti non appena saranno disponibili ulteriori informazioni o quando avremo modo di provarli personalmente.

Partecipa al futuro


ISCRIVITI OGGI

Chiaro, conciso, completo. Per conoscere gli sviluppi dell'IA con DailyAI

Eugene van der Watt

Eugene proviene da un background di ingegneria elettronica e ama tutto ciò che è tecnologico. Quando si prende una pausa dal consumo di notizie sull'intelligenza artificiale, lo si può trovare al tavolo da biliardo.

×

PDF GRATUITO ESCLUSIVO
Rimanere all'avanguardia con DailyAI

Iscriviti alla nostra newsletter settimanale e ricevi l'accesso esclusivo all'ultimo eBook di DailyAI: 'Mastering AI Tools: La tua guida 2024 per una maggiore produttività".

*Iscrivendosi alla nostra newsletter si accetta la nostra Informativa sulla privacy e il nostro Termini e condizioni