Het I/O 2024-evenement van Google ging dinsdag van start met de aankondiging van meerdere nieuwe AI-productontwikkelingen.
OpenAI heeft misschien geprobeerd Google te overtreffen met de afgifte van GPT-4o op maandag, maar de Google I/O 2024 keynote zat vol spannende aankondigingen.
Dit is een blik op de opvallende AI-ontwikkelingen, nieuwe tools en prototypes waar Google mee experimenteert.
Vraag foto's
Google Foto's, de service van Google voor het opslaan en delen van foto's, wordt met Ask Photos doorzoekbaar via zoekopdrachten in natuurlijke taal. Gebruikers kunnen al zoeken naar specifieke items of mensen in hun foto's, maar Ask Photos tilt dit naar een hoger niveau.
Google CEO Sundar Pichai liet zien hoe je Ask Photos kon gebruiken om je eraan te herinneren wat het kenteken van je auto was of om feedback te geven over hoe de zwemvaardigheden van een kind waren gevorderd.
Aangedreven door GeminiAsk Photos begrijpt de context van afbeeldingen en kan tekst extraheren, markeercompilaties maken of zoekopdrachten over opgeslagen afbeeldingen beantwoorden.
Met meer dan 6 miljard afbeeldingen die dagelijks naar Google Foto's worden geüpload, heeft Ask Photos een enorm contextvenster nodig om nuttig te zijn.
Wat als je foto's je vragen konden beantwoorden? Op #GoogleIO Vandaag hebben we Ask Photos aangekondigd, een nieuwe functie van Google Foto's die precies dat doet. Ask Photos is de nieuwe manier om uw foto's te doorzoeken met behulp van Gemini. #AskFoto's https://t.co/KhPeCauFAf pic.twitter.com/3MZg55SgdD
- Google Foto's (@googlephotos) 14 mei 2024
Gemini 1.5 Pro
Pichai kondigde aan dat Gemini 1.5 Pro met een contextvenster van 1M token zal beschikbaar zijn voor Gemini Gevorderde gebruikers. Dit komt neer op ongeveer 1500 pagina's tekst, uren audio en een vol uur video.
Ontwikkelaars kunnen zich aanmelden voor een wachtlijst om het te proberen Gemini 1.5 Pro met een indrukwekkend 2M contextvenster dat binnenkort algemeen beschikbaar zal zijn. Pichai zegt dat dit de volgende stap is in Google's reis naar het uiteindelijke doel van oneindige context.
Gemini 1.5 Pro heeft ook een prestatieverbetering op het gebied van vertalen, redeneren en coderen en zal echt multimodaal zijn met de mogelijkheid om geüploade video en audio te analyseren.
"Het heeft het genageld."
"Dit verandert alles."
"Het is een geweldige ervaring."
"Het voelde alsof ik een superkracht had."
"Dit wordt geweldig."Luister naar ontwikkelaars die Gemini 1.5 Pro met een contextvenster van 1 miljoen tokens. #GoogleIO pic.twitter.com/odOfI4lvOL
- Google (@Google) 14 mei 2024
Google Werkruimte
De uitgebreide context en multimodale mogelijkheden maken het mogelijk om Gemini zeer nuttig te zijn wanneer geïntegreerd met Google Workspace.
Gebruikers kunnen zoekopdrachten in natuurlijke taal gebruiken om te vragen Gemini vragen met betrekking tot hun e-mails. De demo gaf een voorbeeld van een ouder die vroeg om een overzicht van recente e-mails van de school van hun kind.
Gemini zal ook hoogtepunten kunnen halen uit en vragen kunnen beantwoorden over Google Meet-vergaderingen van maximaal een uur.
NotebookLM - Audio-overzicht
Google vrijgegeven NotebookLM vorig jaar. Gebruikers kunnen hun eigen notities en documenten uploaden waar NotebookLM een expert in wordt.
Dit is erg handig als onderzoeksgids of tutor en Google demonstreerde een experimentele upgrade met de naam Audio Overview.
Audio Overview gebruikt de ingevoerde brondocumenten en genereert een audiodiscussie op basis van de inhoud. Gebruikers kunnen deelnemen aan het gesprek en spraak gebruiken om NotebookLM te ondervragen en de discussie te sturen.
NotebookLM! Ik ben zo dol op dit project, het AI-aangedreven Arcades Project. Met de multimodaliteit van Gemini Pro 1.5 kan het automatisch audiodiscussies maken van het bronmateriaal dat je hebt toegevoegd aan je bronnen. pic.twitter.com/IhhSfj8AqR
- Dieter Bohn (@backlon) 14 mei 2024
Er is nog niet bekend wanneer Audio Overview wordt uitgerold, maar het zou een enorme hulp kunnen zijn voor iedereen die een tutor of klankbord nodig heeft om een probleem op te lossen.
Google kondigde ook LearnLM aan, een nieuwe reeks modellen gebaseerd op Gemini en afgestemd op leren en onderwijs. LearnLM zal NotebookLM, YouTube, Zoeken en andere onderwijstools meer interactief maken.
De demo was erg indrukwekkend, maar het lijkt er nu al op dat sommige van de fouten die Google heeft gemaakt met zijn originele Gemini releasevideo's in dit evenement geslopen.
De notebooklm demo is niet real-time. Ik wou dat ze die verwachting hadden uitgesproken zonder het te begraven in een voetnoot in het kleinst mogelijke lettertype. pic.twitter.com/tGN5i3fsVD
- Delip Rao e/σ (@deliprao) 14 mei 2024
AI-agenten en Project Astra
Pichai zegt dat AI-agenten aangedreven door Gemini binnenkort onze alledaagse taken kunnen afhandelen. Google is bezig met prototypes van agents die op verschillende platforms en browsers kunnen werken.
Het voorbeeld dat Pichai gaf was van een gebruiker die de volgende instructies gaf Gemini Een paar schoenen terugsturen en dan de agent door meerdere e-mails laten werken om de relevante gegevens te vinden, de terugzending bij de online winkel te registreren en de ophaling bij een koerier te boeken.
Demis Hassabis introduceerde Project Astra, Google's prototype van een conversationele AI-assistent. De demo van zijn multimodale mogelijkheden gaf een glimp van de toekomst waarin een AI in realtime vragen beantwoordt op basis van live video en details onthoudt van eerdere video's.
Hassabis zei dat sommige van deze functies later dit jaar worden uitgerold.
We hebben lang gewerkt aan een universele AI-agent die echt behulpzaam kan zijn in het dagelijks leven. Vandaag bij #GoogleIO lieten we onze laatste vooruitgang zien: Project Astra. Hier is een video van ons prototype, opgenomen in realtime. pic.twitter.com/TSGDJZVslg
- Demis Hassabis (@demishassabis) 14 mei 2024
Generatieve AI
Google gaf ons een kijkje in de AI-tools voor het genereren van afbeeldingen, muziek en video's waar het aan werkt.
Google heeft Imagen 3 geïntroduceerd, zijn meest geavanceerde afbeeldingsgenerator. Naar verluidt reageert het nauwkeuriger op details in genuanceerde aanwijzingen en levert het meer fotorealistische afbeeldingen.
Hassabis zei dat Imagen 3 Google's "beste model tot nu toe is voor het renderen van tekst, wat een uitdaging is geweest voor modellen voor het genereren van afbeeldingen".
Vandaag introduceren we Imagen 3, DeepMind?ref_src=twsrctfw">@GoogleDeepMindhet meest capabele model voor het genereren van afbeeldingen tot nu toe. Het begrijpt aanwijzingen zoals mensen schrijven, maakt fotorealistischere afbeeldingen en is ons beste model voor het renderen van tekst. #GoogleIO pic.twitter.com/6bjidsz6pJ
- Google (@Google) 14 mei 2024
Music AI Sandbox is een AI-muziekgenerator die is ontworpen als professioneel hulpmiddel om samen muziek te maken, in plaats van een volledige trackgenerator. Dit lijkt een geweldig voorbeeld van hoe AI kan worden gebruikt om goede muziek te maken met een mens aan het stuur van het creatieve proces.
Veo is Google's video generator die tekst, afbeeldingen of video prompts omzet in minutenlange clips op 1080p. Je kunt ook tekstaanwijzingen gebruiken om video's te bewerken. Zal Veo net zo goed zijn als Sora?
Google zal zijn SynthID digitale watermerk uitrollen naar tekst, audio, afbeeldingen en video.
Trillium
Al deze nieuwe multimodale mogelijkheden hebben veel rekenkracht nodig om de modellen te trainen. Pichai onthulde Trillium, de 6e iteratie van zijn Tensor Processing Units (TPU's). Trillium levert meer dan 4 keer de rekenkracht van de vorige TPU-generatie.
Trillium zal later dit jaar beschikbaar zijn voor de cloudcomputingklanten van Google en zal NVIDIA's Blackwell GPU's beschikbaar begin 2025.
AI zoeken
Google integreert Gemini in zijn zoekplatform, omdat het steeds meer gebruik gaat maken van generatieve AI bij het beantwoorden van zoekopdrachten.
Met AI Overview resulteert een zoekopdracht in een uitgebreid antwoord dat is verzameld uit meerdere online bronnen. Dit maakt van Google Search meer een onderzoeksassistent dan simpelweg het vinden van een website die het antwoord kan bevatten.
Gemini stelt Google Search in staat om in meerdere stappen te redeneren om complexe meervoudige vragen op te splitsen en de meest relevante informatie uit meerdere bronnen te retourneren.
GeminiMet het begrijpen van video's kunnen gebruikers binnenkort een video gebruiken om Google Search te doorzoeken.
Dit zal geweldig zijn voor gebruikers van Google Search, maar het zal waarschijnlijk leiden tot veel minder verkeer voor de sites waar Google de informatie vandaan haalt.
Dit is Zoeken in de Gemini tijdperk. #GoogleIO pic.twitter.com/JxldNjbqyn
- Google (@Google) 14 mei 2024
En je kunt ook vragen stellen met video, rechtstreeks in Zoeken. Binnenkort beschikbaar. #GoogleIO pic.twitter.com/zFVu8yOWI1
- Google (@Google) 14 mei 2024
Gemini 1.5 Flits
Google kondigde een lichtgewicht, goedkoper, snel model aan met de naam Gemini 1.5 Flash. Google zegt dat het model "geoptimaliseerd is voor beperktere of hoogfrequente taken waarbij de snelheid van de reactietijd van het model het belangrijkst is".
Gemini 1.5 Flash kost $0,35 per miljoen tokens, een stuk minder dan de $7 die je zou moeten betalen om te gebruiken Gemini 1,5 Pro.
Elk van deze verbeteringen en nieuwe producten verdient een eigen bericht. We posten updates zodra er meer informatie beschikbaar is of wanneer we ze zelf kunnen uitproberen.