Google forventes at frigive Gemini, deres nye LLM, i december, og den forventes at overgå GPT-4 med en vis afstand.
Gemini er en grundlæggende model, der er bygget fra bunden af Googles DeepMind- og Brain AI-teams. Det er den første ægte multimodale model, hvilket betyder, at den kan behandle tekst, billeder og video. GPT-4 klarer kun 2 ud af 3 på det punkt.
En stor del af hypen omkring Geminis præstation er baseret på en rapport fra Semi Analysis som frimodigt hævder, at "Gemini smadrer GPT-4 med 5 gange".
Tallet 5x performance er en reference til den computerkraft, der blev brugt til at træne Gemini. Den anslås at være omkring 5 gange større end den, der blev brugt til at træne GPT-4. Beregningskraft er et interessant benchmark, men flere FLOPS er ikke automatisk ensbetydende med en bedre model.
I mangel af officielle præstationstal var Sam Altman hurtig til at tweete en sarkastisk kommentar til påstandene.
Utroligt, at Google fik den der semianalyse-fyr til at offentliggøre deres interne marketing/rekrutteringsdiagram lol
- Sam Altman (@sama) 29. august 2023
Elon Musk svarede på sit tweet ved at spørge: "Er tallene forkerte?", men fik ikke noget svar fra Altman.
Gemini har over 430 milliarder parametre sammenlignet med det øverste estimat på 200 milliarder, som GPT-4 har. Det ville have krævet en masse processorkraft at træne en model af den størrelse, og det har Google masser af.
Semi Analysis-rapporten brugte "GPU-rige" og "GPU-fattige" til at sammenligne Google med AI-startups, der har betydeligt mindre computerkraft til rådighed.
Sammenligningen er rimelig, selv om det er lidt af en tilsnigelse at bruge "GPU", når det drejer sig om Google. Den virkelige fordel, som Google har, når de skal træne deres modeller, er deres egenudviklede Tensor Processing Units eller TPU'er.
Mens alle andre skynder sig at købe Nvidias GPU'er, er Google langt fremme i modeltræningskapløbet med sine TPU-chips. Gemini blev trænet på Googles TPUv5-chips, som kan operere med 16.384 chips på samme tid.
Gemini og AlphaGo
Noget af den hemmelige sauce i Gemini kommer fra, hvordan Google integrerede AlphaGos evner. AlphaGo er det program, der er udviklet af DeepMind, og som slog verdensmesteren i spillet Go.
Den strategiske beslutningstagning og dynamiske kontekstforståelse, der førte til den sejr, forventes at give Gemini en stor fordel i forhold til GPT-4's ræsonneringsevne.
AlphaGo blev bedre til Go ved at spille mod sig selv. Gemini kunne bruge et lignende selvspil til at lære af sine egne interaktioner og ikke kun af brugernes.
Data er den virkelige forskel
Den største fordel, Google har, er nok den store mængde data, de har til rådighed til at træne Gemini.
OpenAI fik fat i alle de internetdata, de kunne, men kæmper nu imod uundgåelige retssager og ser sin GPTBot bliver i stigende grad blokeret.
Google har sikkert lavet en del "risikabel" dataskrabning, men de ejer store mængder proprietære data. Det er ikke klart, hvad der indgik i Geminis træningsdatasæt, men det kan nemt omfatte data fra YouTube, Google Books, Google Scholar og det massive søgeindeks.
Forhåbentlig behøver vi ikke at vente til december for at få nogle rigtige benchmarking-sammenligninger for at se, om Gemini virkelig er bedre end GPT-4. Kan OpenAI holde igen med at udgive GPT-5 lige længe nok til at overtrumfe Gemini efter lanceringen?