Google speelt nog een AI-kaart in de vorm van Gemini 1.5 Pro

15 februari 2024

Gemini AI

Google heeft een andere kaart gespeeld met Gemini 1.5 Pro, een model dat voortbouwt op de prestaties van zijn voorganger, Gemini 1.0. 

Nu Google Bard dood en begraven is, lijkt de Gemini-familie zich sneller te vermenigvuldigen dan de AI-gemeenschap kan bijhouden.

Nu is er Gemini 1.5 Pro, die efficiënter is dan Google's vorige paradepaardje, Gemini Ultra.

De Gemini 1.5 Pro doet het zelfs beter dan de Ultra in een handvol benchmarktests, maar we hebben meer informatie nodig voor een uitgebreide vergelijking.

Gemini model benchmarks
Gemini model benchmarks

Gemini 1.5 Pro biedt een nieuwe Mixture-of-Experts (MoE) architectuur en presteert beter dan Gemini Pro (nu Gemini 1.0 Pro genoemd) in 87% aan benchmarks. 

Het is beschikbaar via Google's nieuwe betaalde AI-platform genaamd Google One AI Premium, waarmee het Gemini Pro vervangt, ondanks dat Google alleen het upgraden van dat een paar weken geleden.

Dus wat is het doel van een model dat 1.0 Pro verslaat maar vergelijkbaar is met Ultra?

Naast de verbeterde rekenefficiëntie ten opzichte van Ultra en superieure prestaties op sommige gebieden, is de belangrijkste eigenschap van Gemini 1.5 Pro zijn Contextvenster met 128.000 tokens, uitbreidbaar tot 1 miljoen tokens. Dit is beter dan GPT-4 Turbo met 128.000 en Claude 2.1 met 200.000. 

Om een venster van 1 miljoen in context te plaatsen, komt dit globaal neer op 700.000 woorden, 11 uur audio of 1 uur video.

Dit maakt de verwerking en interpretatie van kolossale gegevenssets mogelijk, waaronder hele boeken. Google benadrukt echter dat Gemini 1.5 Pro nog steeds een 'middelgroot' multimodaal model is dat is ontworpen om schaalbaar en veelzijdig te zijn. 

Is Gemini 1.5 dan een GPT-4 killer? Zeker not in brute-force prestaties, maar het zou het moeten overtreffen voor specifieke taken met zeer grote hoeveelheden informatie, zoals Google graag wilde demonstreren. 

Toepassingen en mogelijkheden van Gemini

Net als zijn voorgangers biedt Gemini 1.5 Pro mogelijkheden voor meerdere modaliteiten, van tekst tot video en audio.

Het uitgebreide contextvenster stelt het model in staat om enorme hoeveelheden informatie te verwerken en er over te redeneren, zoals lange documenten, uitgebreide codebases of uren aan video-inhoud. 

In een Google-demo kan Gemini 1.5 Pro details in de 402 pagina's tellende transcripties van de Apollo 11-missie naar de maan begrijpen en identificeren. 

Een andere uitdaging was het vinden van specifieke scènes in Buster Keatons "Sherlock Jr." aan de hand van beschrijvingen en schetsen, wat 1,5 Pro lukte ondanks dat het in sommige gevallen een minuut duurde. 

In een andere taak werd Gemini 1.5 Pro uitgedaagd om Engels te vertalen naar de complexe Guinese taal Kalamang en vice versa.

Dit was vooral lastig omdat Kalamang niet voorkomt in de trainingsgegevens van het model.

Google voorzag het model van instructiemateriaal in de invoercontext, waaronder ongeveer 500 pagina's met referentiegrammatica, een tweetalige woordenlijst (woordenboek) met ongeveer 2.000 ingangen en een set van ongeveer 400 parallelle zinnen.

Deze materialen bestonden uit ongeveer 250k tokens, die binnen het uitgebreide contextvenster van het model pasten.

Met alleen het bijgeleverde instructiemateriaal vertaalde Gemini 1.5 Pro met succes zinnen tussen het Engels en Kalamang. Dit experiment toonde het vermogen van het model om nieuwe taalkundige regels en woordenschat uit de context op te nemen en toe te passen, waardoor het effectief een nieuwe taal leert tijdens het vliegen.

De kwaliteit van vertalingen geproduceerd door Gemini 1.5 Pro werd beoordeeld door menselijke experts die de prestaties van het model vergeleken met die van een menselijke taalleerder die dezelfde set materialen kreeg.

Een andere demo peilde naar de prestaties van het model bij het analyseren en oplossen van problemen met meer dan 100.000 regels code.

Inzichten uit het onderzoeksdocument van Gemini 1.5 Pro

Google heeft een begeleidend onderzoeksdocument uitgebracht over Gemini 1.5, getiteld "Gemini 1.5: Multimodaal begrip ontsluiten via miljoenen contexttokens." 

Het is duidelijk dat Google van plan is om het uitgebreide contextvenster van Gemini 1.5 Pro te pushen, dat momenteel andere LLM's domineert aan de bovenkant van zijn tokens van 1 miljoen.

Gemini 1.5 Pro behaalt bijna perfecte recall op zoektaken met een lange context in verschillende modaliteiten en stelt nieuwe normen voor QA van lange documenten, QA van lange video's en ASR van lange teksten.

Het artikel beschrijft de prestaties van Gemini 1.5 Pro op verschillende kerngebieden en vergelijkt deze met de Gemini 1.0-modellen:

  • Verbeteringen in winstpercentages: Gemini 1.5 Pro toont een winstpercentage van 87,1% ten opzichte van Gemini 1.0 Pro en een winstpercentage van 54,8% ten opzichte van Gemini 1.0 Ultra in meerdere benchmarks, wat de verbeteringen aantoont.
  • Prestaties specifiek gebied: In tekst-gerelateerde taken behaalt het model een win rate van 100% tegen Gemini 1.0 Pro en een win rate van 77% tegen Gemini 1.0 Ultra. In vision-gerelateerde taken zijn de winpercentages 77% en 46% tegen respectievelijk Gemini 1.0 Pro en Ultra. Audiotaken hebben een winstratio van 60% ten opzichte van Gemini 1.0 Pro en een winstratio van 20% ten opzichte van Gemini 1.0 Ultra.

Over het geheel genomen is Gemini 1.5 Pro een goede GPT-3,5-niveau model met een langer contextvenster dan concurrenten. 

Is dat genoeg om mensen weg te lokken van ChatGPT? De waarheid is dat, tenzij je hele boeken hebt om te analyseren, de voordelen klein tot onbestaand kunnen zijn. 

Hoe Gemini 1.5 Pro gebruiken

Gemini 1.5 is momenteel beschikbaar in een beperkte preview voor ontwikkelaars en zakelijke klanten.

Vragen over prijzen en toegankelijkheid op de lange termijn zijn nog niet beantwoord. Google heeft gehint op prijsniveaus die zullen variëren op basis van de grootte van het contextvenster, van de standaard 128.000 tokens tot de volledige 1 miljoen. 

De exacte kosten blijven geheim, wat speculaties aanwakkert over de potentiële investering die nodig is om gebruik te maken van dit geavanceerde contextvenster.

Sommigen hebben benadrukt dat tegen de tijd dat Gemini 1.5 Pro live gaat voor de massa, de concurrentie al verder zal zijn. 

Google onderscheidt zich met een product waar alleen een select groepje early adopters mee kan experimenteren. Dat lijkt een beetje vervreemdend.

De Tweelingenfamilie: toegankelijk of esoterisch?

In een tijdsbestek van ongeveer twee tot drie maanden heeft Google Bard verhoogd en gedood, verwisselen met Gemini Pro en het uitbrengen van Ultra, Nano en nu Gemini 1.5 Pro. 

Dit hield in dat Gemini Pro (wat gewoon Gemini was?) werd hernoemd naar Gemini 1.0 Pro.

Als gevolg van deze AI uitspatting, DeepMind's landingspagina voor de Gemini-familie is eerlijk gezegd ingewikkeld en druk. 

OpenAI haalde in veel opzichten een slimme marketingtruc uit door hun modellen vanaf het begin onder de 'ChatGPT'-paraplu te houden en de toegang min of meer beperkt te houden tot alleen de gratis GPT-3.5 en betaalde GPT-4 voor niet-API-gebruikers. 

Gemini is Google die nucleair gaat met generatieve AI, maar ze zouden wel eens vast kunnen lopen in hun steeds dubbelzinniger wordende productaanbod.

Doe mee met de toekomst


SCHRIJF JE VANDAAG NOG IN

Duidelijk, beknopt, uitgebreid. Krijg grip op AI-ontwikkelingen met DailyAI

Sam Jeans

Sam is een wetenschap- en technologieschrijver die bij verschillende AI-startups heeft gewerkt. Als hij niet aan het schrijven is, leest hij medische tijdschriften of graaft hij door dozen met vinylplaten.

×

GRATIS PDF EXCLUSIEF
Blijf voorop met DailyAI

Meld je aan voor onze wekelijkse nieuwsbrief en ontvang exclusieve toegang tot DailyAI's nieuwste eBook: 'Mastering AI Tools: Your 2024 Guide to Enhanced Productivity'.

* Door u aan te melden voor onze nieuwsbrief accepteert u onze Privacybeleid en onze Algemene voorwaarden