Google har spilt ut et nytt kort med Gemini 1.5 Pro, en modell som bygger videre på forgjengeren Gemini 1.0.
Nå som Google Bard er død og begravet, ser det ut til at Gemini-familien formerer seg raskere enn AI-miljøet klarer å følge med på.
Nå kommer Gemini 1.5 Pro, som er mer effektiv enn Googles tidligere flaggskipmodell, Gemini Ultra.
Gemini 1.5 Pro er faktisk bedre enn Ultra i en håndfull referansetester, men vi trenger mer informasjon for å kunne foreta en omfattende sammenligning.
Gemini 1.5 Pro har en ny MoE-arkitektur (Mixture-of-Experts) og utkonkurrerer Gemini Pro (nå kalt Gemini 1.0 Pro) i 87% av benchmarks.
Den er tilgjengelig gjennom Googles nye betalte AI-plattform kalt Google One AI Premium, som erstatter Gemini Pro til tross for at Google bare oppgraderte den for et par uker siden.
Så hva er hensikten med en modell som slår 1.0 Pro, men som ligner på Ultra?
Bortsett fra økt databehandlingseffektivitet i forhold til Ultra og overlegen ytelse på noen områder, er den viktigste egenskapen ved Gemini 1.5 Pro 128 000 tokens kontekstvindu, som kan utvides til 1 million tokens. Dette slår GPT-4 Turbo på 128 000 og Claude 2.1 på 200 000.
For å sette 1 million kontekstvinduer i kontekst, tilsvarer det omtrent 700 000 ord, 11 timer med lyd eller 1 time med video.
Dette gjør det mulig å behandle og tolke kolossale datasett, inkludert hele bøker. Google understreker imidlertid at Gemini 1.5 Pro fortsatt er en "mellomstor" multimodal modell som er designet for å være skalerbar og allsidig.
Er Gemini 1.5 en GPT-4-dreper, da? Absolutt ikke.ot i brute-force-ytelse, men den bør utkonkurrere den for spesifikke oppgaver med svært store mengder informasjon, slik Google var opptatt av å demonstrere.
Geminis bruksområder og muligheter
I likhet med sine forgjengere kan Gemini 1.5 Pro brukes på tvers av flere modaliteter, fra tekst til video og lyd.
Det utvidede kontekstvinduet gjør det mulig for modellen å behandle og resonnere om store mengder informasjon, for eksempel lange dokumenter, omfattende kodebaser eller timevis med videoinnhold.
I en Google-demo kan Gemini 1.5 Pro forstå og identifisere detaljer i de 402 sider lange utskriftene fra Apollo 11s ferd til månen.
En annen utfordring var å finne spesifikke scener i Buster Keatons "Sherlock Jr." ved hjelp av beskrivelser og skisser, noe 1,5 Pro klarte til tross for at det tok opptil ett minutt i noen tilfeller.
I en annen oppgave ble Gemini 1.5 Pro utfordret til å oversette engelsk til det komplekse guineanske språket kalamang og omvendt.
Dette var spesielt krevende fordi Kalamang ikke er representert i modellens treningsdata.
Google forsynte modellen med undervisningsmateriell i inputkonteksten, inkludert ca. 500 sider med referansegrammatikk, en tospråklig ordliste (ordbok) med ca. 2000 oppføringer og et sett med rundt 400 parallelle setninger.
Materialet besto av rundt 250 000 tokens, noe som passet innenfor modellens utvidede kontekstvindu.
Med bare det medfølgende instruksjonsmaterialet klarte Gemini 1.5 Pro å oversette setninger mellom engelsk og kalamang. Dette eksperimentet viste modellens evne til å absorbere og anvende nye språklige regler og ordforråd fra konteksten, og dermed effektivt lære et nytt språk i farten.
Kvaliteten på oversettelsene som ble produsert av Gemini 1.5 Pro, ble vurdert av menneskelige eksperter som sammenlignet modellens prestasjoner med prestasjonene til en menneskelig språkinnlærer som fikk det samme materialet.
En annen demo målte modellens ytelse når det gjaldt å analysere og løse problemer med over 100 000 kodelinjer.
Innsikt fra Gemini 1.5 Pros forskningsrapport
Google har utgitt et tilhørende forskningsdokument om Gemini 1.5, med tittelen "Gemini 1.5: Multimodal forståelse på tvers av millioner av kontekster."
Det er tydelig at Google har til hensikt å presse Gemini 1.5 Pros utvidede kontekstvindu, som for tiden dominerer andre LLM-er i den øvre enden av 1 million tokens.
Gemini 1.5 Pro oppnår nesten perfekt gjenkalling ved gjenfinning av lange kontekster på tvers av ulike modaliteter og setter nye standarder for kvalitetssikring av lange dokumenter, kvalitetssikring av lange videoer og ASR for lange kontekster.
Artikkelen beskriver Gemini 1.5 Pros ytelse innen ulike kjernefunksjoner, og sammenligner den med Gemini 1.0-modellene:
- Forbedringer av gevinstprosenten: Gemini 1.5 Pro viser en gevinst på 87,1% mot Gemini 1.0 Pro og en gevinst på 54,8% mot Gemini 1.0 Ultra på tvers av flere referansetester, noe som demonstrerer forbedringene
- Spesifikk områdeytelse: I tekstrelaterte oppgaver oppnår modellen en gevinst på 100% mot Gemini 1.0 Pro og 77% mot Gemini 1.0 Ultra. I synsrelaterte oppgaver er gevinstraten 77% og 46% mot henholdsvis Gemini 1.0 Pro og Ultra. Lydoppgaver viser en gevinst på 60% mot Gemini 1.0 Pro og 20% mot Gemini 1.0 Ultra.
Alt i alt er Gemini 1.5 Pro et godt GPT-3,5-nivåmodell med et lengre kontekstvindu enn konkurrentene.
Er det nok til å lokke folk bort fra ChatGPT? Sannheten er at med mindre du har hele bøker å analysere, kan fordelene være små eller ikke-eksisterende.
Slik bruker du Gemini 1.5 Pro
Gemini 1.5 er for øyeblikket tilgjengelig i en begrenset forhåndsvisning for utviklere og bedriftskunder.
Spørsmål om langsiktig prising og tilgjengelighet har ennå ikke blitt besvart. Google har antydet at prisnivåene vil variere basert på størrelsen på kontekstvinduet, fra standard 128 000 tokens til hele 1 million.
Den eksakte kostnaden er fortsatt hemmelig, noe som gir opphav til spekulasjoner om den potensielle investeringen som kreves for å utnytte dette avanserte kontekstvinduet.
Noen har fremhevet at når Gemini 1.5 Pro går live for massene, vil konkurransen ha gått videre.
Google differensierer seg på et produkt som bare noen få utvalgte early adopters kan eksperimentere med. Det virker litt fremmedgjørende.
Tvillingfamilien: tilgjengelig eller esoterisk?
I løpet av to til tre måneder eller så, løftet Google opp og drepte Bard, bytte den ut med Gemini Pro og lanserer Ultra, Nano og nå Gemini 1.5 Pro.
Dette har medført at Gemini Pro (som bare var Gemini?) har blitt omdøpt til Gemini 1.0 Pro.
Som et resultat av denne AI-eksplosjonen, DeepMinds landingsside for Gemini-familien er rett og slett innviklet og overfylt.
OpenAI gjorde på mange måter et smart markedsføringstriks ved å holde modellene sine under "ChatGPT"-paraplyen fra starten av og holde tilgangen mer eller mindre begrenset til bare gratis GPT-3.5 og betalt GPT-4 for ikke-API-brukere.
Gemini er Googles storsatsing på generativ AI, men de kan komme til å kjøre seg fast i sine stadig mer tvetydige produkttilbud.