Google väntas släppa Gemini, sin nya LLM, i december och den väntas överträffa GPT-4 med råge.
Gemini är en grundläggande modell som byggts från grunden av Googles DeepMind- och Brain AI-team. Det är den första verkligt multimodala modellen, vilket innebär att den kan bearbeta text, bilder och video. GPT-4 lyckas bara 2 av 3 på den poängen.
En stor del av hypen kring Geminis utveckling är baserad på en rapport från Semi Analysis som djärvt hävdar att "Gemini Smashes GPT-4 By 5X".
Siffran 5x prestanda är en referens till den beräkningskraft som användes för att träna Gemini. Den beräknas vara cirka 5 gånger större än vad som användes för att träna GPT-4. Beräkningskraft är ett intressant riktmärke, men mer FLOPS innebär inte automatiskt en bättre modell.
I avsaknad av officiella resultatsiffror var Sam Altman snabb med att twittra en sarkastisk kommentar om påståendena.
otroligt google fick den semianalyskillen att publicera sitt interna marknadsförings- / rekryteringsdiagram lol
- Sam Altman (@sama) 29 augusti 2023
Elon Musk svarade på sin tweet med frågan "Är siffrorna fel?", men fick inget svar från Altman.
Gemini har över 430 miljarder parametrar, jämfört med den högsta uppskattningen på 200 miljarder som GPT-4 har. Det skulle ha krävts mycket processorkraft för att träna en modell av den storleken, och Google har gott om det.
I rapporten från Semi Analysis användes "GPU-rika" och "GPU-fattiga" för att jämföra Google med AI-startups som har betydligt mindre datorkraft till sitt förfogande.
Jämförelsen är rättvis, även om det är lite missvisande att använda "GPU" när det gäller Google. Den verkliga fördelen som Google har när det gäller att träna sina modeller är dess egenutvecklade Tensor Processing Units eller TPU:er.
Medan alla andra skyndar sig att köpa Nvidias GPU:er ligger Google långt framme i modellträningsracet med sina TPU-chips. Gemini tränades på Googles TPUv5-chips som samtidigt kan fungera med 16 384 chips.
Gemini och AlphaGo
En del av den hemliga såsen i Gemini kommer från hur Google integrerade AlphaGos kapacitet. AlphaGo är det program som utvecklats av DeepMind och som slog världsmästaren i spelet Go.
Det strategiska beslutsfattandet och den dynamiska kontextförståelsen som ledde till den vinsten förväntas ge Gemini en stor fördel jämfört med GPT-4:s resonemangsförmåga.
AlphaGo blev bättre på Go genom att spela mot sig själv. Gemini skulle kunna använda liknande självspel för att lära sig av sina egna interaktioner, och inte bara av användarinteraktion.
Data är den verkliga skillnaden
Den största fördelen för Google är förmodligen den stora mängd data som företaget har till sitt förfogande för att utbilda Gemini.
OpenAI tog åt sig all internetdata de kunde men kämpar nu mot oundvikliga stämningar och ser dess GPTBot alltmer blockerad.
Google gjorde förmodligen sin rättvisa andel av riskfylld dataskrapning men det äger enorma mängder proprietära data. Det är inte klart vad som gick in i Geminis träningsdataset men det kan lätt innehålla data från YouTube, Google Books, Google Scholar och dess massiva sökindex.
Förhoppningsvis behöver vi inte vänta till december för att få några riktiga benchmarkingjämförelser för att se om Gemini verkligen är bättre än GPT-4. Kan OpenAI hålla tillbaka på att släppa GPT-5 bara tillräckligt länge för att trumfa Gemini efter lanseringen?