Googles I/O 2024-event blev skudt i gang tirsdag med flere nye AI-produktfremskridt, der blev annonceret.
OpenAI har måske forsøgt at overgå Google med frigivelse af GPT-4o i mandags, men Google I/O 2024-keynoten var fuld af spændende meddelelser.
Her er et kig på de fremtrædende AI-fremskridt, nye værktøjer og prototyper, som Google eksperimenterer med.
Spørg om billeder
Google Fotos, Googles tjeneste til lagring og deling af fotos, bliver søgbar ved hjælp af naturlige sprogforespørgsler med Ask Fotos. Brugere kan allerede søge efter bestemte genstande eller personer på deres fotos, men Ask Photos tager det til det næste niveau.
Googles CEO Sundar Pichai viste, hvordan du kunne bruge Ask Photos til at minde dig om din bils nummerplade eller give feedback på, hvordan et barns svømmefærdigheder havde udviklet sig.
Drevet af GeminiAsk Photos forstår konteksten på tværs af billeder og kan udtrække tekst, skabe højdepunktkompileringer eller besvare forespørgsler om gemte billeder.
Med mere end 6 milliarder billeder, der uploades til Google Fotos dagligt, har Ask Fotos brug for et stort kontekstvindue for at være nyttigt.
Tænk, hvis dine billeder kunne besvare dine spørgsmål? 🤔 På #GoogleIO I dag annoncerede vi Ask Photos, en ny Google Photos-funktion, der gør netop det. Spørg fotos er den nye måde at søge i dine fotos på ved hjælp af Gemini. #AskFotos https://t.co/KhPeCauFAf pic.twitter.com/3MZg55SgdD
- Google Fotos (@googlephotos) 14. maj 2024
Gemini 1.5 Pro
Pichai meddelte, at Gemini 1.5 Pro med et 1M token-kontekstvindue vil være tilgængeligt for Gemini Avancerede brugere. Det svarer til omkring 1.500 siders tekst, flere timers lyd og en hel times video.
Udviklere kan skrive sig på en venteliste for at prøve Gemini 1.5 Pro med et imponerende 2M kontekstvindue, som snart vil være generelt tilgængeligt. Pichai siger, at dette er det næste skridt på Googles rejse mod det ultimative mål om uendelig kontekst.
Gemini 1.5 Pro har også fået et performance-boost inden for oversættelse, ræsonnement og kodning og bliver virkelig multimodal med mulighed for at analysere uploadet video og lyd.
"Den ramte plet."
"Det her ændrer alt."
"Det er en overvældende oplevelse."
"Jeg følte, at jeg havde en superkraft."
"Det her bliver fantastisk."Hør fra udviklere, der har afprøvet Gemini 1.5 Pro med et kontekstvindue på 1 million token. #GoogleIO pic.twitter.com/odOfI4lvOL
- Google (@Google) 14. maj 2024
Google Workspace
Den udvidede kontekst og de multimodale muligheder gør det muligt at Gemini at være ekstremt nyttig, når den er integreret med Google Workspace.
Brugere kan bruge naturlige sprogforespørgsler til at spørge Gemini spørgsmål relateret til deres e-mails. Demoen gav et eksempel på en forælder, der bad om en oversigt over de seneste e-mails fra deres barns skole.
Gemini vil også kunne uddrage højdepunkter fra og besvare spørgsmål om Google Meet-møder på op til en time.
NotebookLM - Oversigt over lyd
Google udgav NotebookLM sidste år. Det giver brugerne mulighed for at uploade deres egne noter og dokumenter, som NotebookLM bliver ekspert på.
Det er ekstremt nyttigt som forskningsguide eller vejleder, og Google demonstrerede en eksperimentel opgradering kaldet Audio Overview.
Audio Overview bruger kildedokumenterne som input og genererer en lyddiskussion baseret på indholdet. Brugere kan deltage i samtalen og bruge tale til at forespørge NotebookLM og styre diskussionen.
NotebookLM! Jeg er helt vild med dette projekt, det AI-drevne Arcades Project. Med multimodaliteten i Gemini Pro 1.5, kan den automatisk skabe lyddiskussioner af det kildemateriale, du har tilføjet til dine kilder. pic.twitter.com/IhhSfj8AqR
- Dieter Bohn (@backlon) 14. maj 2024
Der er ingen meldinger om, hvornår Audio Overview vil blive rullet ud, men det kan være en stor hjælp for alle, der ønsker en vejleder eller en sparringspartner til at arbejde sig igennem et problem.
Google annoncerede også LearnLM, en ny familie af modeller baseret på Gemini og finjusteret til læring og uddannelse. LearnLM vil gøre NotebookLM, YouTube, Search og andre uddannelsesværktøjer mere interaktive.
Demoen var meget imponerende, men det ser allerede ud til, at nogle af de fejl begået af Google med sin oprindelige Gemini udgivelsesvideoer sneg sig ind i denne begivenhed.
Notebooklm-demoen er ikke i realtid. Jeg ville ønske, at de havde givet udtryk for den forventning uden at begrave den i en fodnote med den mindst mulige skrifttype. pic.twitter.com/tGN5i3fsVD
- Delip Rao e/σ (@deliprao) 14. maj 2024
AI-agenter og Project Astra
Pichai siger, at AI-agenter drevet af Gemini vil snart kunne håndtere vores dagligdags opgaver. Google er ved at udvikle prototyper på agenter, der kan arbejde på tværs af platforme og browsere.
Det eksempel, Pichai gav, var en bruger, der instruerede Gemini at returnere et par sko, og så skal agenten arbejde sig igennem flere e-mails for at finde de relevante detaljer, logge returneringen hos onlinebutikken og bestille afhentning hos en kurer.
Demis Hassabis introducerede Project Astra, Googles prototype på en AI-assistent til samtaler. Demonstrationen af dens multimodale evner gav et glimt af fremtiden, hvor en AI besvarer spørgsmål i realtid baseret på live video og husker detaljer fra tidligere video.
Hassabis sagde, at nogle af disse funktioner ville blive rullet ud senere i år.
Vi har længe arbejdet på at udvikle en universel AI-agent, som virkelig kan være til hjælp i hverdagen. I dag på #GoogleIO viste vi vores seneste fremskridt i den retning: Projekt Astra. Her er en video af vores prototype, optaget i realtid. pic.twitter.com/TSGDJZVslg
- Demis Hassabis (@demishassabis) 14. maj 2024
Generativ AI
Google gav os et kig på de billed-, musik- og videogenererende AI-værktøjer, de har arbejdet på.
Google introducerede Imagen 3, sin mest avancerede billedgenerator. Den reagerer efter sigende mere præcist på detaljer i nuancerede beskeder og leverer mere fotorealistiske billeder.
Hassabis sagde, at Imagen 3 er Googles "hidtil bedste model til gengivelse af tekst, hvilket har været en udfordring for billedgenereringsmodeller."
I dag introducerer vi Imagen 3, DeepMind?ref_src=twsrc%5Etfw”>@GoogleDeepMind's mest kompetente billedgenereringsmodel til dato. Den forstår prompts, som folk skriver, skaber mere fotorealistiske billeder og er vores bedste model til gengivelse af tekst. #GoogleIO pic.twitter.com/6bjidsz6pJ
- Google (@Google) 14. maj 2024
Music AI Sandbox er en AI-musikgenerator, der er designet til at være et professionelt værktøj til at skabe musik i fællesskab, snarere end en komplet musikgenerator. Det ser ud til at være et godt eksempel på, hvordan AI kan bruges til at lave god musik med et menneske som drivkraft i den kreative proces.
Veo er Googles videogenerator, der omdanner tekst-, billed- eller videoprompter til minutlange klip i 1080p. Den giver også mulighed for at lave videoredigeringer ved hjælp af tekstprompter. Vil Veo være lige så god som Sora?
Google vil udrulle sit digitale SynthID-vandmærke til tekst, lyd, billeder og video.
Trillium
Alle disse nye multimodale muligheder kræver en masse processorkraft til at træne modellerne. Pichai afslørede Trillium, den 6. iteration af sine Tensor Processing Units (TPU'er). Trillium leverer mere end 4 gange så meget regnekraft som den forrige TPU-generation.
Trillium vil være tilgængelig for Googles cloud computing-kunder senere i år og vil gøre NVIDIAs Blackwell GPU'er tilgængelig i begyndelsen af 2025.
AI-søgning
Google vil integrere Gemini i sin søgeplatform, da den bevæger sig i retning af at bruge generativ AI til at besvare forespørgsler.
Med AI Overview resulterer en søgeforespørgsel i et omfattende svar, der er samlet fra flere onlinekilder. Det gør Google Search til mere af en forskningsassistent end blot at finde en hjemmeside, der måske indeholder svaret.
Gemini gør det muligt for Google Search at bruge flertrinsargumentation til at nedbryde komplekse spørgsmål i flere dele og returnere de mest relevante oplysninger fra flere kilder.
Gemini's videoforståelse vil snart give brugerne mulighed for at bruge en video til at forespørge Google Search.
Det vil være godt for brugerne af Google Search, men det vil sandsynligvis resultere i meget mindre trafik til de websteder, som Google får oplysningerne fra.
Dette er søgning i Gemini æra. #GoogleIO pic.twitter.com/JxldNjbqyn
- Google (@Google) 14. maj 2024
Og du vil også kunne stille spørgsmål med video, direkte i Search. Det kommer snart. #GoogleIO pic.twitter.com/zFVu8yOWI1
- Google (@Google) 14. maj 2024
Gemini 1.5 Flash
Google annoncerede en let, billigere og hurtig model kaldet Gemini 1,5 Flash. Google siger, at modellen er "optimeret til snævrere eller højfrekvente opgaver, hvor hastigheden af modellens responstid betyder mest."
Gemini 1,5 Flash vil koste $0,35 pr. million tokens, hvilket er meget mindre end de $7, du skal betale for at bruge Gemini 1,5 Pro.
Hvert af disse fremskridt og nye produkter fortjener et indlæg for sig selv. Vi sender opdateringer, når der kommer flere oplysninger, eller når vi selv får lov til at prøve dem.