Google I/O 2024 - Dit zijn de AI-highlights die Google onthulde

15 mei 2024

  • Tijdens het Google I/O 2024-evenement werden nieuwe Google AI-productreleases en -prototypes aangekondigd
  • Gemini Pro 1.5 krijgt een 2M context upgrade en wordt geïntegreerd in Google Workspaces
  • Verschillende tools met multimodale mogelijkheden en nieuwe beeld-, muziek- en videogeneratoren werden getoond

Het I/O 2024-evenement van Google ging dinsdag van start met de aankondiging van meerdere nieuwe AI-productontwikkelingen.

OpenAI heeft misschien geprobeerd Google te overtreffen met de afgifte van GPT-4o op maandag, maar de Google I/O 2024 keynote zat vol spannende aankondigingen.

Dit is een blik op de opvallende AI-ontwikkelingen, nieuwe tools en prototypes waar Google mee experimenteert.

Vraag foto's

Google Foto's, de service van Google voor het opslaan en delen van foto's, wordt met Ask Photos doorzoekbaar via zoekopdrachten in natuurlijke taal. Gebruikers kunnen al zoeken naar specifieke items of mensen in hun foto's, maar Ask Photos tilt dit naar een hoger niveau.

Google CEO Sundar Pichai liet zien hoe je Ask Photos kon gebruiken om je eraan te herinneren wat het kenteken van je auto was of om feedback te geven over hoe de zwemvaardigheden van een kind waren gevorderd.

Aangedreven door GeminiAsk Photos begrijpt de context van afbeeldingen en kan tekst extraheren, markeercompilaties maken of zoekopdrachten over opgeslagen afbeeldingen beantwoorden.

Met meer dan 6 miljard afbeeldingen die dagelijks naar Google Foto's worden geüpload, heeft Ask Photos een enorm contextvenster nodig om nuttig te zijn.

Gemini 1.5 Pro

Pichai kondigde aan dat Gemini 1.5 Pro met een contextvenster van 1M token zal beschikbaar zijn voor Gemini Gevorderde gebruikers. Dit komt neer op ongeveer 1500 pagina's tekst, uren audio en een vol uur video.

Ontwikkelaars kunnen zich aanmelden voor een wachtlijst om het te proberen Gemini 1.5 Pro met een indrukwekkend 2M contextvenster dat binnenkort algemeen beschikbaar zal zijn. Pichai zegt dat dit de volgende stap is in Google's reis naar het uiteindelijke doel van oneindige context.

Gemini 1.5 Pro heeft ook een prestatieverbetering op het gebied van vertalen, redeneren en coderen en zal echt multimodaal zijn met de mogelijkheid om geüploade video en audio te analyseren.

Google Werkruimte

De uitgebreide context en multimodale mogelijkheden maken het mogelijk om Gemini zeer nuttig te zijn wanneer geïntegreerd met Google Workspace.

Gebruikers kunnen zoekopdrachten in natuurlijke taal gebruiken om te vragen Gemini vragen met betrekking tot hun e-mails. De demo gaf een voorbeeld van een ouder die vroeg om een overzicht van recente e-mails van de school van hun kind.

Gemini zal ook hoogtepunten kunnen halen uit en vragen kunnen beantwoorden over Google Meet-vergaderingen van maximaal een uur.

NotebookLM - Audio-overzicht

Google vrijgegeven NotebookLM vorig jaar. Gebruikers kunnen hun eigen notities en documenten uploaden waar NotebookLM een expert in wordt.

Dit is erg handig als onderzoeksgids of tutor en Google demonstreerde een experimentele upgrade met de naam Audio Overview.

Audio Overview gebruikt de ingevoerde brondocumenten en genereert een audiodiscussie op basis van de inhoud. Gebruikers kunnen deelnemen aan het gesprek en spraak gebruiken om NotebookLM te ondervragen en de discussie te sturen.

Er is nog niet bekend wanneer Audio Overview wordt uitgerold, maar het zou een enorme hulp kunnen zijn voor iedereen die een tutor of klankbord nodig heeft om een probleem op te lossen.

Google kondigde ook LearnLM aan, een nieuwe reeks modellen gebaseerd op Gemini en afgestemd op leren en onderwijs. LearnLM zal NotebookLM, YouTube, Zoeken en andere onderwijstools meer interactief maken.

De demo was erg indrukwekkend, maar het lijkt er nu al op dat sommige van de fouten die Google heeft gemaakt met zijn originele Gemini releasevideo's in dit evenement geslopen.

AI-agenten en Project Astra

Pichai zegt dat AI-agenten aangedreven door Gemini binnenkort onze alledaagse taken kunnen afhandelen. Google is bezig met prototypes van agents die op verschillende platforms en browsers kunnen werken.

Het voorbeeld dat Pichai gaf was van een gebruiker die de volgende instructies gaf Gemini Een paar schoenen terugsturen en dan de agent door meerdere e-mails laten werken om de relevante gegevens te vinden, de terugzending bij de online winkel te registreren en de ophaling bij een koerier te boeken.

Demis Hassabis introduceerde Project Astra, Google's prototype van een conversationele AI-assistent. De demo van zijn multimodale mogelijkheden gaf een glimp van de toekomst waarin een AI in realtime vragen beantwoordt op basis van live video en details onthoudt van eerdere video's.

Hassabis zei dat sommige van deze functies later dit jaar worden uitgerold.

Generatieve AI

Google gaf ons een kijkje in de AI-tools voor het genereren van afbeeldingen, muziek en video's waar het aan werkt.

Google heeft Imagen 3 geïntroduceerd, zijn meest geavanceerde afbeeldingsgenerator. Naar verluidt reageert het nauwkeuriger op details in genuanceerde aanwijzingen en levert het meer fotorealistische afbeeldingen.

Hassabis zei dat Imagen 3 Google's "beste model tot nu toe is voor het renderen van tekst, wat een uitdaging is geweest voor modellen voor het genereren van afbeeldingen".

Music AI Sandbox is een AI-muziekgenerator die is ontworpen als professioneel hulpmiddel om samen muziek te maken, in plaats van een volledige trackgenerator. Dit lijkt een geweldig voorbeeld van hoe AI kan worden gebruikt om goede muziek te maken met een mens aan het stuur van het creatieve proces.

Veo is Google's video generator die tekst, afbeeldingen of video prompts omzet in minutenlange clips op 1080p. Je kunt ook tekstaanwijzingen gebruiken om video's te bewerken. Zal Veo net zo goed zijn als Sora?

Google zal zijn SynthID digitale watermerk uitrollen naar tekst, audio, afbeeldingen en video.

 

Trillium

Al deze nieuwe multimodale mogelijkheden hebben veel rekenkracht nodig om de modellen te trainen. Pichai onthulde Trillium, de 6e iteratie van zijn Tensor Processing Units (TPU's). Trillium levert meer dan 4 keer de rekenkracht van de vorige TPU-generatie.

Trillium zal later dit jaar beschikbaar zijn voor de cloudcomputingklanten van Google en zal NVIDIA's Blackwell GPU's beschikbaar begin 2025.

AI zoeken

Google integreert Gemini in zijn zoekplatform, omdat het steeds meer gebruik gaat maken van generatieve AI bij het beantwoorden van zoekopdrachten.

Met AI Overview resulteert een zoekopdracht in een uitgebreid antwoord dat is verzameld uit meerdere online bronnen. Dit maakt van Google Search meer een onderzoeksassistent dan simpelweg het vinden van een website die het antwoord kan bevatten.

Gemini stelt Google Search in staat om in meerdere stappen te redeneren om complexe meervoudige vragen op te splitsen en de meest relevante informatie uit meerdere bronnen te retourneren.

GeminiMet het begrijpen van video's kunnen gebruikers binnenkort een video gebruiken om Google Search te doorzoeken.

Dit zal geweldig zijn voor gebruikers van Google Search, maar het zal waarschijnlijk leiden tot veel minder verkeer voor de sites waar Google de informatie vandaan haalt.

Gemini 1.5 Flits

Google kondigde een lichtgewicht, goedkoper, snel model aan met de naam Gemini 1.5 Flash. Google zegt dat het model "geoptimaliseerd is voor beperktere of hoogfrequente taken waarbij de snelheid van de reactietijd van het model het belangrijkst is".

Gemini 1.5 Flash kost $0,35 per miljoen tokens, een stuk minder dan de $7 die je zou moeten betalen om te gebruiken Gemini 1,5 Pro.

Elk van deze verbeteringen en nieuwe producten verdient een eigen bericht. We posten updates zodra er meer informatie beschikbaar is of wanneer we ze zelf kunnen uitproberen.

Doe mee met de toekomst


SCHRIJF JE VANDAAG NOG IN

Duidelijk, beknopt, uitgebreid. Krijg grip op AI-ontwikkelingen met DailyAI

Eugene van der Watt

Eugene heeft een achtergrond in elektrotechniek en houdt van alles wat met techniek te maken heeft. Als hij even pauzeert van het consumeren van AI-nieuws, kun je hem aan de snookertafel vinden.

×

GRATIS PDF EXCLUSIEF
Blijf voorop met DailyAI

Meld je aan voor onze wekelijkse nieuwsbrief en ontvang exclusieve toegang tot DailyAI's nieuwste eBook: 'Mastering AI Tools: Your 2024 Guide to Enhanced Productivity'.

* Door u aan te melden voor onze nieuwsbrief accepteert u onze Privacybeleid en onze Algemene voorwaarden