Google har spelat ut ett nytt kort med Gemini 1.5 Pro, en modell som bygger vidare på framgångarna från föregångaren Gemini 1.0.
Med Google Bard död och begraven verkar Gemini-familjen föröka sig snabbare än AI-samhället kan hålla reda på.
Nu kommer Gemini 1.5 Pro, som är mer effektiv än Googles tidigare flaggskeppsmodell Gemini Ultra.
Faktum är att Gemini 1.5 Pro är bättre än Ultra i en handfull benchmarktester, men vi behöver mer information för att kunna göra en heltäckande jämförelse.
Gemini 1.5 Pro erbjuder en ny MoE-arkitektur (Mixture-of-Experts) och överträffar Gemini Pro (nu kallad Gemini 1.0 Pro) i 87% av benchmarks.
Den är tillgänglig via Googles nya betalda AI-plattform med namnet Google One AI Premium, som ersätter Gemini Pro trots att Google bara uppgradering av den för ett par veckor sedan.
Så, vad är syftet med en modell som slår 1.0 Pro men liknar Ultra?
Bortsett från ökad beräkningseffektivitet jämfört med Ultra och överlägsen prestanda inom vissa områden, är huvudfunktionen i Gemini 1.5 Pro dess 128.000 tokens kontextfönster, expanderbart upp till 1 miljon tokens. Detta slår GPT-4 Turbo på 128 000 och Claude 2.1 på 200 000.
För att sätta ett fönster med 1 miljon kontexter i sitt sammanhang kan det i stort sett översättas till 700 000 ord, 11 timmars ljud eller 1 timmes video.
Detta möjliggör bearbetning och tolkning av enorma datamängder, inklusive hela böcker. Google understryker dock att Gemini 1.5 Pro fortfarande är en "medelstor" multimodal modell som är utformad för att vara skalbar och mångsidig.
Är Gemini 1.5 en GPT-4-dödare då? Säkert not i brute-force-prestanda, men det bör överträffa det för specifika uppgifter med mycket stora mängder information, vilket Google var angelägna om att visa.
Geminis tillämpningar och kapacitet
Precis som sina föregångare har Gemini 1.5 Pro funktioner som sträcker sig över flera modaliteter, från text till video och ljud.
Det utökade kontextfönstret gör det möjligt för modellen att bearbeta och resonera kring stora mängder information, t.ex. långa dokument, omfattande kodbaser eller timmar av videoinnehåll.
I en Google-demo kan Gemini 1.5 Pro förstå och identifiera detaljer i de 402-sidiga utskrifterna från Apollo 11:s uppdrag till månen.
En annan utmaning var att hitta specifika scener i Buster Keatons "Sherlock Jr." med hjälp av beskrivningar och skisser, vilket 1,5 Pro lyckades med trots att det i vissa fall tog upp till en minut.
I en annan uppgift utmanades Gemini 1.5 Pro med att översätta engelska till det komplexa guineanska språket kalamang och vice versa.
Detta var särskilt utmanande eftersom Kalamang inte finns representerat i modellens träningsdata.
Google försåg modellen med instruktionsmaterial i dess inmatningskontext, inklusive cirka 500 sidor med referensgrammatik, en tvåspråkig ordlista (ordbok) med cirka 2.000 poster och en uppsättning med cirka 400 parallella meningar.
Materialet bestod av cirka 250 000 tokens, vilket ryms inom modellens utökade kontextfönster.
Med bara det instruktionsmaterial som tillhandahölls översatte Gemini 1.5 Pro framgångsrikt meningar mellan engelska och kalamang. Detta experiment visade modellens förmåga att absorbera och tillämpa nya språkliga regler och ordförråd från sammanhanget, vilket effektivt lär sig ett nytt språk i farten.
Kvaliteten på översättningarna som producerades av Gemini 1.5 Pro bedömdes av mänskliga experter som jämförde modellens prestanda med en mänsklig språkinlärare som fick samma uppsättning material.
En annan demo mätte modellens prestanda när det gällde att analysera och lösa problem med 100.000 rader kod.
Insikter från Gemini 1.5 Pro's forskningspapper
Google publicerade ett medföljande forskningsdokument om Gemini 1.5, med titeln "Gemini 1.5: Möjliggör multimodal förståelse av miljontals olika kontexter."
Det är tydligt att Google avser att driva Gemini 1.5 Pros utökade kontextfönster, som för närvarande dominerar andra LLM: er i den övre änden av sina 1 miljon tokens.
Gemini 1.5 Pro uppnår nästan perfekt återkallande på uppgifter för hämtning av långa kontexter över olika modaliteter och sätter nya standarder för QA av långa dokument, QA av långa videor och ASR av långa kontexter.
Dokumentet beskriver Gemini 1.5 Pros prestanda inom olika kärnfunktioner och jämför den med Gemini 1.0-modellerna:
- Förbättringar av vinstandelen: Gemini 1.5 Pro visar en vinstprocent på 87,1% jämfört med Gemini 1.0 Pro och en vinstprocent på 54,8% jämfört med Gemini 1.0 Ultra i flera olika riktmärken, vilket visar på dess förbättringar
- Prestanda för specifika områden: I textrelaterade uppgifter uppnår modellen en vinstnivå på 100% mot Gemini 1.0 Pro och en vinstnivå på 77% mot Gemini 1.0 Ultra. I visionsrelaterade uppgifter är vinstfrekvensen 77% och 46% mot Gemini 1.0 Pro respektive Ultra. Ljuduppgifter visar en vinst på 60% mot Gemini 1.0 Pro och en vinst på 20% mot Gemini 1.0 Ultra.
Sammantaget är Gemini 1.5 Pro en bra GPT-3,5-nivåmodell med ett längre kontextfönster än konkurrenterna.
Är det tillräckligt för att locka människor bort från ChatGPT? Sanningen är att om du inte har hela böcker att analysera kan fördelarna vara små eller obefintliga.
Hur man använder Gemini 1.5 Pro
Gemini 1.5 är för närvarande tillgänglig i en begränsad förhandsversion för utvecklare och företagskunder.
Frågor om långsiktig prissättning och tillgänglighet har ännu inte besvarats. Google har antytt att prisnivåerna kommer att variera beroende på storleken på kontextfönstret, från standard 128 000 tokens till hela 1 miljon.
Den exakta kostnaden är fortfarande hemlig, vilket ger upphov till spekulationer om den potentiella investering som krävs för att utnyttja detta avancerade kontextfönster.
Vissa har betonat att när Gemini 1.5 Pro går live för massorna, kommer tävlingen att ha gått vidare.
Google differentierar sig på en produkt som bara ett fåtal utvalda tidiga användare kan experimentera med. Det verkar lite alienerande.
Familjen Gemini: tillgänglig eller esoterisk?
Inom loppet av två till tre månader eller så, tog Google upp och dödade Bard, byta ut den mot Gemini Pro och släpper Ultra, Nano och nu Gemini 1.5 Pro.
Detta har inneburit att Gemini Pro (som bara var Gemini?) har bytt namn till Gemini 1.0 Pro.
Som ett resultat av denna AI-sprängning, DeepMinds landningssida för Gemini-familjen är uppriktigt sagt invecklad och överfull.
OpenAI gjorde på många sätt ett smart marknadsföringstrick genom att hålla sina modeller under "ChatGPT"-paraplyet från början och hålla tillgången mer eller mindre begränsad till bara den kostnadsfria GPT-3.5 och den betalda GPT-4 för icke-API-användare.
Gemini är Google som satsar stenhårt på generativ AI, men de kan komma att fastna i sina alltmer tvetydiga produkterbjudanden.