Google I/O 2024 - Her er AI-høydepunktene Google avslørte

15. mai 2024

  • På Google I/O 2024-arrangementet ble nye Google AI-produktlanseringer og prototyper kunngjort
  • Gemini Pro 1.5 får en 2M-kontekstoppgradering og blir integrert i Google Workspaces
  • Flere verktøy med multimodale funksjoner og nye bilde-, musikk- og videogeneratorer ble vist frem

Googles I/O 2024-arrangement startet på tirsdag, og flere nye AI-produktutviklinger ble kunngjort.

OpenAI kan ha forsøkt å overgå Google med frigjøring av GPT-4o på mandag, men Google I/O 2024-keynoten var full av spennende kunngjøringer.

Her er en oversikt over de mest fremtredende AI-fremskrittene, de nye verktøyene og prototypene Google eksperimenterer med.

Spør bilder

Google Foto, Googles tjeneste for lagring og deling av bilder, vil bli søkbar ved hjelp av naturlige språkspørsmål med Ask Photos. Brukere kan allerede søke etter bestemte gjenstander eller personer i bildene sine, men Ask Photos tar dette til neste nivå.

Google-sjef Sundar Pichai viste hvordan du kan bruke Ask Photos til å minne deg på bilens registreringsnummer eller gi tilbakemelding om hvordan et barns svømmeferdigheter har utviklet seg.

Drevet av GeminiAsk Photos forstår konteksten på tvers av bilder og kan trekke ut tekst, lage høydepunktkompileringer eller svare på spørsmål om lagrede bilder.

Med mer enn 6 milliarder bilder som lastes opp til Google Foto hver dag, trenger Ask Photos et stort kontekstvindu for å være nyttig.

Gemini 1,5 Pro

Pichai kunngjorde at Gemini 1,5 Pro med et 1M token kontekstvindu vil være tilgjengelig for Gemini Avanserte brukere. Dette tilsvarer rundt 1500 sider med tekst, flere timer med lyd og en hel time med video.

Utviklere kan registrere seg på en venteliste for å prøve Gemini 1.5 Pro med et imponerende 2M kontekstvindu som snart vil være allment tilgjengelig. Pichai sier at dette er neste steg på Googles reise mot det endelige målet om uendelig kontekst.

Gemini 1.5 Pro har også fått et ytelsesløft når det gjelder oversettelse, resonnering og koding, og vil bli virkelig multimodal med muligheten til å analysere opplastet video og lyd.

Google Workspace

Den utvidede konteksten og de multimodale funksjonene gjør det mulig Gemini å være ekstremt nyttig når den integreres med Google Workspace.

Brukerne kan bruke naturlig språk for å spørre Gemini spørsmål knyttet til e-postene deres. I demoen ble det gitt et eksempel på en forelder som ba om et sammendrag av de siste e-postene fra barnets skole.

Gemini vil også kunne hente ut høydepunkter fra og svare på spørsmål om Google Meet-møter på opptil en time.

NotebookLM - Oversikt over lyd

Google lanserte NotebookLM i fjor. Det gjør det mulig for brukerne å laste opp egne notater og dokumenter som NotebookLM blir ekspert på.

Dette er svært nyttig som forskningsguide eller veileder, og Google demonstrerte en eksperimentell oppgradering kalt Audio Overview.

Audio Overview bruker kildedokumentene og genererer en lyddiskusjon basert på innholdet. Brukerne kan delta i samtalen og bruke tale til å stille spørsmål til NotebookLM og styre diskusjonen.

Det er ikke kjent når Audio Overview vil bli lansert, men det kan være til stor hjelp for alle som ønsker en veileder eller en sparringspartner for å løse et problem.

Google kunngjorde også LearnLM, en ny familie av modeller basert på Gemini og finjustert for læring og utdanning. LearnLM vil gjøre NotebookLM, YouTube, Search og andre pedagogiske verktøy mer interaktive.

Demoen var veldig imponerende, men allerede nå virker det som om noen av de feil Google gjorde med sin opprinnelige Gemini utgivelsesvideoer snek seg inn i dette arrangementet.

AI-agenter og Project Astra

Pichai sier at AI-agenter drevet av Gemini vil snart kunne håndtere våre dagligdagse oppgaver. Google utvikler prototyper på agenter som skal kunne fungere på tvers av plattformer og nettlesere.

Eksemplet Pichai ga var en bruker som instruerte Gemini å returnere et par sko, og så må agenten jobbe seg gjennom flere e-poster for å finne de relevante opplysningene, logge returen hos nettbutikken og bestille henting med bud.

Demis Hassabis introduserte Project Astra, Googles prototyp på en samtalebasert AI-assistent. Demonstrasjonen av de multimodale funksjonene ga et glimt av fremtiden, der en kunstig intelligens svarer på spørsmål i sanntid basert på direkte video og husker detaljer fra tidligere video.

Hassabis sa at noen av disse funksjonene vil lanseres senere i år.

Generativ AI

Google ga oss en titt på de generative AI-verktøyene for bilder, musikk og video som de har jobbet med.

Google introduserte Imagen 3, sin mest avanserte bildegenerator. Den skal angivelig reagere mer nøyaktig på detaljer i nyanserte beskjeder og levere mer fotorealistiske bilder.

Hassabis sa at Imagen 3 er Googles "hittil beste modell for gjengivelse av tekst, noe som har vært en utfordring for bildegenereringsmodeller".

Music AI Sandbox er en AI-musikkgenerator som er utviklet for å være et profesjonelt verktøy for samarbeid om musikkskaping, snarere enn en fullverdig låtgenerator. Dette ser ut som et godt eksempel på hvordan kunstig intelligens kan brukes til å lage god musikk med et menneske som drivkraft i den kreative prosessen.

Veo er Googles videogenerator som forvandler tekst, bilder eller video-instruksjoner til minuttlange klipp i 1080p. Det er også mulig å redigere videoene ved hjelp av tekstmeldinger. Vil Veo være like bra som Sora?

Google vil rulle ut sin digitale vannmerking SynthID til tekst, lyd, bilder og video.

 

Trillium

Alle disse nye multimodale funksjonene trenger mye prosessorkraft for å trene opp modellene. Pichai avduket Trillium, den sjette iterasjonen av Tensor Processing Units (TPU-er). Trillium leverer mer enn fire ganger så mye regnekraft som den forrige TPU-generasjonen.

Trillium vil være tilgjengelig for Googles cloud computing-kunder senere i år, og vil gjøre NVIDIAs Blackwell GPUer tilgjengelig tidlig i 2025.

AI-søk

Google vil integrere Gemini i søkeplattformen sin, i takt med at de går over til å bruke generativ AI til å svare på spørsmål.

Med AI Overview resulterer et søk i et omfattende svar som er sammenstilt fra flere kilder på nettet. Dette gjør Google Søk til mer av en forskningsassistent enn bare å finne et nettsted som kan inneholde svaret.

Gemini gjør det mulig for Google Søk å bruke flerstegsresonnementer for å bryte ned komplekse spørsmål med flere deler og returnere den mest relevante informasjonen fra flere kilder.

Gemini's videoforståelse vil snart gjøre det mulig for brukere å bruke en video til å spørre Google Søk.

Dette vil være bra for brukerne av Google Søk, men det vil sannsynligvis føre til mye mindre trafikk for nettstedene som Google henter informasjonen fra.

Gemini 1,5 blits

Google kunngjorde en lett, billigere og rask modell kalt Gemini 1,5 Flash. Google sier at modellen er "optimalisert for smalere eller høyfrekvente oppgaver der hastigheten på modellens responstid betyr mest."

Gemini 1,5 Flash vil koste $0,35 per million tokens, mye mindre enn de $7 du må betale for å bruke Gemini 1,5 Pro.

Hver av disse fremskrittene og nye produktene fortjener et eget innlegg. Vi legger ut oppdateringer etter hvert som mer informasjon blir tilgjengelig, eller når vi får prøve dem selv.

Bli med i fremtiden


ABONNER I DAG

Tydelig, kortfattet og omfattende. Få et grep om AI-utviklingen med DagligAI

Eugene van der Watt

Eugene har bakgrunn som elektroingeniør og elsker alt som har med teknologi å gjøre. Når han tar en pause fra AI-nyhetene, finner du ham ved snookerbordet.

×

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI

Meld deg på vårt ukentlige nyhetsbrev og få eksklusiv tilgang til DailyAIs nyeste e-bok: "Mastering AI Tools: Din 2024-guide til økt produktivitet".

*Ved å abonnere på vårt nyhetsbrev aksepterer du vår Retningslinjer for personvern og vår Vilkår og betingelser