Googles I/O 2024-arrangement startet på tirsdag, og flere nye AI-produktutviklinger ble kunngjort.
OpenAI kan ha forsøkt å overgå Google med frigjøring av GPT-4o på mandag, men Google I/O 2024-keynoten var full av spennende kunngjøringer.
Her er en oversikt over de mest fremtredende AI-fremskrittene, de nye verktøyene og prototypene Google eksperimenterer med.
Spør bilder
Google Foto, Googles tjeneste for lagring og deling av bilder, vil bli søkbar ved hjelp av naturlige språkspørsmål med Ask Photos. Brukere kan allerede søke etter bestemte gjenstander eller personer i bildene sine, men Ask Photos tar dette til neste nivå.
Google-sjef Sundar Pichai viste hvordan du kan bruke Ask Photos til å minne deg på bilens registreringsnummer eller gi tilbakemelding om hvordan et barns svømmeferdigheter har utviklet seg.
Drevet av GeminiAsk Photos forstår konteksten på tvers av bilder og kan trekke ut tekst, lage høydepunktkompileringer eller svare på spørsmål om lagrede bilder.
Med mer enn 6 milliarder bilder som lastes opp til Google Foto hver dag, trenger Ask Photos et stort kontekstvindu for å være nyttig.
Hva om bildene dine kunne svare på spørsmålene dine? 🤔 På #GoogleIO I dag kunngjorde vi Ask Photos, en ny Google Foto-funksjon som gjør nettopp det. Spør bilder er den nye måten å søke i bildene dine ved hjelp av Gemini. #AskPhotos https://t.co/KhPeCauFAf pic.twitter.com/3MZg55SgdD
- Google Foto (@googlephotos) 14. mai 2024
Gemini 1,5 Pro
Pichai kunngjorde at Gemini 1,5 Pro med et 1M token kontekstvindu vil være tilgjengelig for Gemini Avanserte brukere. Dette tilsvarer rundt 1500 sider med tekst, flere timer med lyd og en hel time med video.
Utviklere kan registrere seg på en venteliste for å prøve Gemini 1.5 Pro med et imponerende 2M kontekstvindu som snart vil være allment tilgjengelig. Pichai sier at dette er neste steg på Googles reise mot det endelige målet om uendelig kontekst.
Gemini 1.5 Pro har også fått et ytelsesløft når det gjelder oversettelse, resonnering og koding, og vil bli virkelig multimodal med muligheten til å analysere opplastet video og lyd.
"Det var helt perfekt."
"Dette forandrer alt."
"Det er en overveldende opplevelse."
"Det føltes som om jeg hadde en superkraft."
"Dette kommer til å bli fantastisk."Hør fra utviklere som har prøvd ut Gemini 1.5 Pro med et kontekstvindu på 1 million token. #GoogleIO pic.twitter.com/odOfI4lvOL
- Google (@Google) 14. mai 2024
Google Workspace
Den utvidede konteksten og de multimodale funksjonene gjør det mulig Gemini å være ekstremt nyttig når den integreres med Google Workspace.
Brukerne kan bruke naturlig språk for å spørre Gemini spørsmål knyttet til e-postene deres. I demoen ble det gitt et eksempel på en forelder som ba om et sammendrag av de siste e-postene fra barnets skole.
Gemini vil også kunne hente ut høydepunkter fra og svare på spørsmål om Google Meet-møter på opptil en time.
NotebookLM - Oversikt over lyd
Google lanserte NotebookLM i fjor. Det gjør det mulig for brukerne å laste opp egne notater og dokumenter som NotebookLM blir ekspert på.
Dette er svært nyttig som forskningsguide eller veileder, og Google demonstrerte en eksperimentell oppgradering kalt Audio Overview.
Audio Overview bruker kildedokumentene og genererer en lyddiskusjon basert på innholdet. Brukerne kan delta i samtalen og bruke tale til å stille spørsmål til NotebookLM og styre diskusjonen.
NotebookLM! Jeg elsker dette prosjektet så høyt, det AI-drevne Arcades-prosjektet. Med multimodaliteten til Gemini Pro 1.5, kan den automatisk opprette lyddiskusjoner av kildematerialet du har lagt til i kildene dine. pic.twitter.com/IhhSfj8AqR
- Dieter Bohn (@backlon) 14. mai 2024
Det er ikke kjent når Audio Overview vil bli lansert, men det kan være til stor hjelp for alle som ønsker en veileder eller en sparringspartner for å løse et problem.
Google kunngjorde også LearnLM, en ny familie av modeller basert på Gemini og finjustert for læring og utdanning. LearnLM vil gjøre NotebookLM, YouTube, Search og andre pedagogiske verktøy mer interaktive.
Demoen var veldig imponerende, men allerede nå virker det som om noen av de feil Google gjorde med sin opprinnelige Gemini utgivelsesvideoer snek seg inn i dette arrangementet.
Notebooklm-demoen er ikke i sanntid. Jeg skulle ønske de hadde sagt dette uten å begrave det i en fotnote med så liten skrift som mulig. pic.twitter.com/tGN5i3fsVD
- Delip Rao e/σ (@deliprao) 14. mai 2024
AI-agenter og Project Astra
Pichai sier at AI-agenter drevet av Gemini vil snart kunne håndtere våre dagligdagse oppgaver. Google utvikler prototyper på agenter som skal kunne fungere på tvers av plattformer og nettlesere.
Eksemplet Pichai ga var en bruker som instruerte Gemini å returnere et par sko, og så må agenten jobbe seg gjennom flere e-poster for å finne de relevante opplysningene, logge returen hos nettbutikken og bestille henting med bud.
Demis Hassabis introduserte Project Astra, Googles prototyp på en samtalebasert AI-assistent. Demonstrasjonen av de multimodale funksjonene ga et glimt av fremtiden, der en kunstig intelligens svarer på spørsmål i sanntid basert på direkte video og husker detaljer fra tidligere video.
Hassabis sa at noen av disse funksjonene vil lanseres senere i år.
Vi har lenge jobbet med å utvikle en universell AI-agent som virkelig kan være til hjelp i hverdagen. I dag på #GoogleIO viste vi frem våre siste fremskritt mot dette: Prosjekt Astra. Her er en video av prototypen vår, filmet i sanntid. pic.twitter.com/TSGDJZVslg
- Demis Hassabis (@demishassabis) 14. mai 2024
Generativ AI
Google ga oss en titt på de generative AI-verktøyene for bilder, musikk og video som de har jobbet med.
Google introduserte Imagen 3, sin mest avanserte bildegenerator. Den skal angivelig reagere mer nøyaktig på detaljer i nyanserte beskjeder og levere mer fotorealistiske bilder.
Hassabis sa at Imagen 3 er Googles "hittil beste modell for gjengivelse av tekst, noe som har vært en utfordring for bildegenereringsmodeller".
I dag introduserer vi Imagen 3, DeepMind?ref_src=twsrc%5Etfw”>@GoogleDeepMind's mest kapable bildegenereringsmodell hittil. Den forstår ledetekster slik folk skriver, skaper mer fotorealistiske bilder og er vår beste modell for gjengivelse av tekst. #GoogleIO pic.twitter.com/6bjidsz6pJ
- Google (@Google) 14. mai 2024
Music AI Sandbox er en AI-musikkgenerator som er utviklet for å være et profesjonelt verktøy for samarbeid om musikkskaping, snarere enn en fullverdig låtgenerator. Dette ser ut som et godt eksempel på hvordan kunstig intelligens kan brukes til å lage god musikk med et menneske som drivkraft i den kreative prosessen.
Veo er Googles videogenerator som forvandler tekst, bilder eller video-instruksjoner til minuttlange klipp i 1080p. Det er også mulig å redigere videoene ved hjelp av tekstmeldinger. Vil Veo være like bra som Sora?
Google vil rulle ut sin digitale vannmerking SynthID til tekst, lyd, bilder og video.
Trillium
Alle disse nye multimodale funksjonene trenger mye prosessorkraft for å trene opp modellene. Pichai avduket Trillium, den sjette iterasjonen av Tensor Processing Units (TPU-er). Trillium leverer mer enn fire ganger så mye regnekraft som den forrige TPU-generasjonen.
Trillium vil være tilgjengelig for Googles cloud computing-kunder senere i år, og vil gjøre NVIDIAs Blackwell GPUer tilgjengelig tidlig i 2025.
AI-søk
Google vil integrere Gemini i søkeplattformen sin, i takt med at de går over til å bruke generativ AI til å svare på spørsmål.
Med AI Overview resulterer et søk i et omfattende svar som er sammenstilt fra flere kilder på nettet. Dette gjør Google Søk til mer av en forskningsassistent enn bare å finne et nettsted som kan inneholde svaret.
Gemini gjør det mulig for Google Søk å bruke flerstegsresonnementer for å bryte ned komplekse spørsmål med flere deler og returnere den mest relevante informasjonen fra flere kilder.
Gemini's videoforståelse vil snart gjøre det mulig for brukere å bruke en video til å spørre Google Søk.
Dette vil være bra for brukerne av Google Søk, men det vil sannsynligvis føre til mye mindre trafikk for nettstedene som Google henter informasjonen fra.
Dette er Søk i Gemini æra. #GoogleIO pic.twitter.com/JxldNjbqyn
- Google (@Google) 14. mai 2024
Og du vil også kunne stille spørsmål med video, rett i Search. Kommer snart. #GoogleIO pic.twitter.com/zFVu8yOWI1
- Google (@Google) 14. mai 2024
Gemini 1,5 blits
Google kunngjorde en lett, billigere og rask modell kalt Gemini 1,5 Flash. Google sier at modellen er "optimalisert for smalere eller høyfrekvente oppgaver der hastigheten på modellens responstid betyr mest."
Gemini 1,5 Flash vil koste $0,35 per million tokens, mye mindre enn de $7 du må betale for å bruke Gemini 1,5 Pro.
Hver av disse fremskrittene og nye produktene fortjener et eget innlegg. Vi legger ut oppdateringer etter hvert som mer informasjon blir tilgjengelig, eller når vi får prøve dem selv.