Google I/O 2024 - Her er de AI-højdepunkter, som Google afslørede

15. maj 2024

  • Ved Google I/O 2024-begivenheden blev nye Google AI-produktudgivelser og -prototyper annonceret
  • Gemini Pro 1.5 får en 2M-kontekstopgradering og bliver integreret i Google Workspaces
  • Flere værktøjer med multimodale funktioner og nye billed-, musik- og videogeneratorer blev vist frem

Googles I/O 2024-event blev skudt i gang tirsdag med flere nye AI-produktfremskridt, der blev annonceret.

OpenAI har måske forsøgt at overgå Google med frigivelse af GPT-4o i mandags, men Google I/O 2024-keynoten var fuld af spændende meddelelser.

Her er et kig på de fremtrædende AI-fremskridt, nye værktøjer og prototyper, som Google eksperimenterer med.

Spørg om billeder

Google Fotos, Googles tjeneste til lagring og deling af fotos, bliver søgbar ved hjælp af naturlige sprogforespørgsler med Ask Fotos. Brugere kan allerede søge efter bestemte genstande eller personer på deres fotos, men Ask Photos tager det til det næste niveau.

Googles CEO Sundar Pichai viste, hvordan du kunne bruge Ask Photos til at minde dig om din bils nummerplade eller give feedback på, hvordan et barns svømmefærdigheder havde udviklet sig.

Drevet af GeminiAsk Photos forstår konteksten på tværs af billeder og kan udtrække tekst, skabe højdepunktkompileringer eller besvare forespørgsler om gemte billeder.

Med mere end 6 milliarder billeder, der uploades til Google Fotos dagligt, har Ask Fotos brug for et stort kontekstvindue for at være nyttigt.

Gemini 1.5 Pro

Pichai meddelte, at Gemini 1.5 Pro med et 1M token-kontekstvindue vil være tilgængeligt for Gemini Avancerede brugere. Det svarer til omkring 1.500 siders tekst, flere timers lyd og en hel times video.

Udviklere kan skrive sig på en venteliste for at prøve Gemini 1.5 Pro med et imponerende 2M kontekstvindue, som snart vil være generelt tilgængeligt. Pichai siger, at dette er det næste skridt på Googles rejse mod det ultimative mål om uendelig kontekst.

Gemini 1.5 Pro har også fået et performance-boost inden for oversættelse, ræsonnement og kodning og bliver virkelig multimodal med mulighed for at analysere uploadet video og lyd.

Google Workspace

Den udvidede kontekst og de multimodale muligheder gør det muligt at Gemini at være ekstremt nyttig, når den er integreret med Google Workspace.

Brugere kan bruge naturlige sprogforespørgsler til at spørge Gemini spørgsmål relateret til deres e-mails. Demoen gav et eksempel på en forælder, der bad om en oversigt over de seneste e-mails fra deres barns skole.

Gemini vil også kunne uddrage højdepunkter fra og besvare spørgsmål om Google Meet-møder på op til en time.

NotebookLM - Oversigt over lyd

Google udgav NotebookLM sidste år. Det giver brugerne mulighed for at uploade deres egne noter og dokumenter, som NotebookLM bliver ekspert på.

Det er ekstremt nyttigt som forskningsguide eller vejleder, og Google demonstrerede en eksperimentel opgradering kaldet Audio Overview.

Audio Overview bruger kildedokumenterne som input og genererer en lyddiskussion baseret på indholdet. Brugere kan deltage i samtalen og bruge tale til at forespørge NotebookLM og styre diskussionen.

Der er ingen meldinger om, hvornår Audio Overview vil blive rullet ud, men det kan være en stor hjælp for alle, der ønsker en vejleder eller en sparringspartner til at arbejde sig igennem et problem.

Google annoncerede også LearnLM, en ny familie af modeller baseret på Gemini og finjusteret til læring og uddannelse. LearnLM vil gøre NotebookLM, YouTube, Search og andre uddannelsesværktøjer mere interaktive.

Demoen var meget imponerende, men det ser allerede ud til, at nogle af de fejl begået af Google med sin oprindelige Gemini udgivelsesvideoer sneg sig ind i denne begivenhed.

AI-agenter og Project Astra

Pichai siger, at AI-agenter drevet af Gemini vil snart kunne håndtere vores dagligdags opgaver. Google er ved at udvikle prototyper på agenter, der kan arbejde på tværs af platforme og browsere.

Det eksempel, Pichai gav, var en bruger, der instruerede Gemini at returnere et par sko, og så skal agenten arbejde sig igennem flere e-mails for at finde de relevante detaljer, logge returneringen hos onlinebutikken og bestille afhentning hos en kurer.

Demis Hassabis introducerede Project Astra, Googles prototype på en AI-assistent til samtaler. Demonstrationen af dens multimodale evner gav et glimt af fremtiden, hvor en AI besvarer spørgsmål i realtid baseret på live video og husker detaljer fra tidligere video.

Hassabis sagde, at nogle af disse funktioner ville blive rullet ud senere i år.

Generativ AI

Google gav os et kig på de billed-, musik- og videogenererende AI-værktøjer, de har arbejdet på.

Google introducerede Imagen 3, sin mest avancerede billedgenerator. Den reagerer efter sigende mere præcist på detaljer i nuancerede beskeder og leverer mere fotorealistiske billeder.

Hassabis sagde, at Imagen 3 er Googles "hidtil bedste model til gengivelse af tekst, hvilket har været en udfordring for billedgenereringsmodeller."

Music AI Sandbox er en AI-musikgenerator, der er designet til at være et professionelt værktøj til at skabe musik i fællesskab, snarere end en komplet musikgenerator. Det ser ud til at være et godt eksempel på, hvordan AI kan bruges til at lave god musik med et menneske som drivkraft i den kreative proces.

Veo er Googles videogenerator, der omdanner tekst-, billed- eller videoprompter til minutlange klip i 1080p. Den giver også mulighed for at lave videoredigeringer ved hjælp af tekstprompter. Vil Veo være lige så god som Sora?

Google vil udrulle sit digitale SynthID-vandmærke til tekst, lyd, billeder og video.

 

Trillium

Alle disse nye multimodale muligheder kræver en masse processorkraft til at træne modellerne. Pichai afslørede Trillium, den 6. iteration af sine Tensor Processing Units (TPU'er). Trillium leverer mere end 4 gange så meget regnekraft som den forrige TPU-generation.

Trillium vil være tilgængelig for Googles cloud computing-kunder senere i år og vil gøre NVIDIAs Blackwell GPU'er tilgængelig i begyndelsen af 2025.

AI-søgning

Google vil integrere Gemini i sin søgeplatform, da den bevæger sig i retning af at bruge generativ AI til at besvare forespørgsler.

Med AI Overview resulterer en søgeforespørgsel i et omfattende svar, der er samlet fra flere onlinekilder. Det gør Google Search til mere af en forskningsassistent end blot at finde en hjemmeside, der måske indeholder svaret.

Gemini gør det muligt for Google Search at bruge flertrinsargumentation til at nedbryde komplekse spørgsmål i flere dele og returnere de mest relevante oplysninger fra flere kilder.

Gemini's videoforståelse vil snart give brugerne mulighed for at bruge en video til at forespørge Google Search.

Det vil være godt for brugerne af Google Search, men det vil sandsynligvis resultere i meget mindre trafik til de websteder, som Google får oplysningerne fra.

Gemini 1.5 Flash

Google annoncerede en let, billigere og hurtig model kaldet Gemini 1,5 Flash. Google siger, at modellen er "optimeret til snævrere eller højfrekvente opgaver, hvor hastigheden af modellens responstid betyder mest."

Gemini 1,5 Flash vil koste $0,35 pr. million tokens, hvilket er meget mindre end de $7, du skal betale for at bruge Gemini 1,5 Pro.

Hvert af disse fremskridt og nye produkter fortjener et indlæg for sig selv. Vi sender opdateringer, når der kommer flere oplysninger, eller når vi selv får lov til at prøve dem.

Deltag i fremtiden


TILMELD DIG I DAG

Klar, kortfattet, omfattende. Få styr på AI-udviklingen med DailyAI

Eugene van der Watt

Eugene har en baggrund som elektronikingeniør og elsker alt, hvad der har med teknologi at gøre. Når han tager en pause fra at læse AI-nyheder, kan du finde ham ved snookerbordet.

×

GRATIS PDF EKSKLUSIVT
Vær på forkant med DailyAI

Tilmeld dig vores ugentlige nyhedsbrev og få eksklusiv adgang til DailyAI's seneste e-bog: 'Mastering AI Tools: Din 2024-guide til forbedret produktivitet'.

*Ved at tilmelde dig vores nyhedsbrev accepterer du vores Politik for beskyttelse af personlige oplysninger og vores Vilkår og betingelser