Google har spillet endnu et kort med Gemini 1.5 Pro, en model, der bygger videre på resultaterne fra forgængeren Gemini 1.0.
Med Google Bard død og begravet ser Gemini-familien ud til at formere sig hurtigere, end AI-samfundet kan følge med.
Nu kommer Gemini 1.5 Pro, som er mere effektiv end Googles tidligere flagskibsmodel, Gemini Ultra.
Faktisk er Gemini 1.5 Pro bedre end Ultra i en håndfuld benchmarktests, men vi har brug for flere oplysninger for at kunne foretage en omfattende sammenligning.
Gemini 1.5 Pro tilbyder en ny MoE-arkitektur (Mixture-of-Experts) og overgår Gemini Pro (nu kaldet Gemini 1.0 Pro) i 87% af benchmarks.
Den er tilgængelig via Googles nye betalte AI-platform ved navn Google One AI Premium, der erstatter Gemini Pro på trods af, at Google kun opgraderede det for et par uger siden.
Så hvad er formålet med en model, der slår 1.0 Pro, men ligner Ultra?
Bortset fra øget computereffektivitet i forhold til Ultra og overlegen ydeevne på nogle områder er den vigtigste funktion i Gemini 1.5 Pro dens 128.000 tokens kontekstvindue, der kan udvides op til 1 million tokens. Det slår GPT-4 Turbo med 128.000 og Claude 2.1 med 200.000.
For at sætte et vindue på 1 million i kontekst, svarer det til 700.000 ord, 11 timers lyd eller 1 times video.
Det gør det muligt at behandle og fortolke kolossale datasæt, herunder hele bøger. Google understreger dog, at Gemini 1.5 Pro stadig er en "mellemstor" multimodal model, der er designet til at være skalerbar og alsidig.
Er Gemini 1.5 så en GPT-4-dræber? Bestemt ikkeot i brute-force-ydelse, men den bør overgå den til specifikke opgaver med meget store mængder information, som Google var ivrig efter at demonstrere.
Geminis applikationer og muligheder
Ligesom sine forgængere strækker Gemini 1.5 Pro's muligheder sig over flere modaliteter, fra tekst til video og lyd.
Det udvidede kontekstvindue gør det muligt for modellen at behandle og ræsonnere over store mængder information, f.eks. lange dokumenter, omfattende kodebaser eller timevis af videoindhold.
I en Google-demo kan Gemini 1.5 Pro forstå og identificere detaljer i de 402 sider lange udskrifter fra Apollo 11's mission til månen.
En anden udfordring var at finde specifikke scener i Buster Keatons "Sherlock Jr." ved hjælp af beskrivelser og skitser, hvilket 1,5 Pro klarede på trods af, at det i nogle tilfælde tog op til et minut.
I en anden opgave blev Gemini 1.5 Pro udfordret til at oversætte engelsk til det komplekse guineanske sprog, kalamang, og omvendt.
Det var især en udfordring, fordi Kalamang ikke er repræsenteret i modellens træningsdata.
Google forsynede modellen med undervisningsmateriale i dens inputkontekst, herunder ca. 500 sider med referencegrammatik, en tosproget ordliste (ordbog) med ca. 2.000 poster og et sæt med ca. 400 parallelle sætninger.
Disse materialer bestod af omkring 250.000 tokens, som passede ind i modellens udvidede kontekstvindue.
Med blot det medfølgende instruktionsmateriale lykkedes det Gemini 1.5 Pro at oversætte sætninger mellem engelsk og kalamang. Dette eksperiment viste modellens evne til at absorbere og anvende nye sproglige regler og ordforråd fra konteksten og dermed effektivt lære et nyt sprog i farten.
Kvaliteten af oversættelser produceret af Gemini 1.5 Pro blev vurderet af menneskelige eksperter, som sammenlignede modellens præstation med en menneskelig sprogindlærer, der fik det samme sæt materialer.
En anden demo målte modellens ydeevne ved at analysere og løse problemer over 100.000 kodelinjer.
Indsigt fra Gemini 1.5 Pro's forskningsrapport
Google udgav et ledsagende forskningsdokument om Gemini 1.5 med titlen "Gemini 1.5: Frigørelse af multimodal forståelse på tværs af millioner af kontekster."
Det er tydeligt, at Google har til hensigt at skubbe til Gemini 1.5 Pros udvidede kontekstvindue, som i øjeblikket dominerer andre LLM'er i den øvre ende af 1 million tokens.
Gemini 1.5 Pro opnår næsten perfekt genkaldelse af opgaver med lang kontekst på tværs af forskellige modaliteter og sætter nye standarder for QA af lange dokumenter, QA af lange videoer og ASR af lange kontekster.
Artiklen beskriver Gemini 1.5 Pros ydeevne inden for forskellige kernefunktioner og sammenligner den med Gemini 1.0-modellerne:
- Forbedringer af vinderprocenten: Gemini 1.5 Pro viser en gevinst på 87,1% i forhold til Gemini 1.0 Pro og en gevinst på 54,8% i forhold til Gemini 1.0 Ultra på tværs af flere benchmarks, hvilket viser dens forbedringer.
- Præstationer inden for specifikke områder: I tekstrelaterede opgaver opnår modellen en gevinst på 100% mod Gemini 1.0 Pro og en gevinst på 77% mod Gemini 1.0 Ultra. I synsrelaterede opgaver er gevinstprocenten 77% og 46% mod henholdsvis Gemini 1.0 Pro og Ultra. Lydopgaver viser en gevinst på 60% mod Gemini 1.0 Pro og en gevinst på 20% mod Gemini 1.0 Ultra.
Samlet set er Gemini 1.5 Pro en god GPT-3.5-niveau model med et længere kontekstvindue end konkurrenterne.
Er det nok til at lokke folk væk fra ChatGPT? Sandheden er, at medmindre du har hele bøger at analysere, kan fordelene være små eller ikke-eksisterende.
Sådan bruger du Gemini 1.5 Pro
Gemini 1.5 er i øjeblikket tilgængelig i en begrænset forhåndsvisning for udviklere og virksomhedskunder.
Spørgsmål om langsigtet prissætning og tilgængelighed er endnu ikke blevet besvaret. Google har antydet prisniveauer, der vil variere baseret på størrelsen af kontekstvinduet, fra standard 128.000 tokens til hele 1 million.
Den nøjagtige pris er stadig hemmeligholdt, hvilket giver anledning til spekulationer om den potentielle investering, der kræves for at udnytte dette avancerede kontekstvindue.
Nogle har fremhævet, at når Gemini 1.5 Pro går i luften for masserne, vil konkurrenterne være kommet videre.
Google differentierer sig på et produkt, som kun nogle få udvalgte early adopters kan eksperimentere med. Det virker lidt fremmedgørende.
Tvillingefamilien: tilgængelig eller esoterisk?
I løbet af to til tre måneder rejste og dræbte Google Bard, bytter den ud med Gemini Pro og udgiver Ultra, Nano og nu Gemini 1.5 Pro.
Det har betydet, at Gemini Pro (som bare var Gemini?) er blevet omdøbt til Gemini 1.0 Pro.
Som et resultat af denne AI-eksplosion, DeepMinds landingsside for Gemini-familien er helt ærligt indviklet og overfyldt.
OpenAI lavede på mange måder et smart marketingtrick ved at holde deres modeller under 'ChatGPT'-paraplyen fra starten og holde adgangen mere eller mindre begrænset til kun den gratis GPT-3.5 og den betalte GPT-4 for ikke-API-brugere.
Gemini er Google, der satser på generativ AI, men de kan komme til at sidde fast i deres stadig mere tvetydige produktudbud.