Googles nye LLM, Gemini, forventes å lanseres i desember, og det forventes at den vil utkonkurrere GPT-4 med god margin.
Gemini er en grunnleggende modell som er bygget fra bunnen av av Googles DeepMind- og Brain AI-team. Det er den første virkelig multimodale modellen, noe som betyr at den kan behandle tekst, bilder og video. GPT-4 oppnår bare 2 av 3 på dette punktet.
Mye av hypen rundt Geminis prestasjoner er basert på en rapport fra Semi Analyse som frimodig hevder at "Gemini knuser GPT-4 med 5 ganger".
Tallet 5 ganger ytelsen er en referanse til regnekraften som ble brukt til å trene Gemini. Den anslås å være rundt 5 ganger større enn den som ble brukt til å trene GPT-4. Beregningskraft er en interessant målestokk, men flere FLOPS betyr ikke automatisk en bedre modell.
I mangel av offisielle prestasjonstall var Sam Altman raskt ute med en sarkastisk kommentar til påstandene på Twitter.
utrolig at google fikk den semianalysefyren til å publisere deres interne markedsførings-/rekrutteringskart lol
- Sam Altman (@sama) 29. august 2023
Elon Musk svarte på tweeten sin ved å spørre: "Er tallene feil?", men fikk ikke noe svar fra Altman.
Gemini har over 430 milliarder parametere, sammenlignet med toppestimatet på 200 milliarder som GPT-4 har. Det ville ha krevd mye prosessorkraft å trene opp en modell av den størrelsen, og Google har massevis av det.
Semi Analysis-rapporten brukte "GPU-rik" og "GPU-fattig" for å sammenligne Google med AI-startups som har betydelig mindre datakraft til rådighet.
Sammenligningen er rimelig, selv om det å bruke "GPU" når det gjelder Google er litt misvisende. Den virkelige fordelen Google har når det gjelder å trene opp modellene sine, er de proprietære Tensor Processing Units eller TPU-er.
Mens alle andre kappes om å kjøpe Nvidias GPU-er, ligger Google langt fremme i modellopplæringskappløpet med sine TPU-brikker. Gemini ble trent på Googles TPUv5-brikker, som kan operere med 16 384 brikker samtidig.
Gemini og AlphaGo
Noe av den hemmelige sausen i Gemini kommer fra hvordan Google integrerte funksjonene til AlphaGo. AlphaGo er programmet utviklet av DeepMind som slo verdensmesteren i spillet Go.
Den strategiske beslutningstakingen og dynamiske kontekstforståelsen som førte til den seieren, forventes å gi Gemini en stor fordel i forhold til GPT-4s evne til å resonnere.
AlphaGo ble bedre i Go ved å spille mot seg selv. Gemini kan bruke lignende selvspill for å lære av sine egne interaksjoner, og ikke bare av brukerinteraksjon.
Data er den virkelige forskjellen
Den største fordelen Google har, er sannsynligvis den store datamengden de har til rådighet for å trene opp Gemini.
OpenAI tok tak i all internettdata den kunne, men kjemper nå mot uunngåelige søksmål og ser sin GPTBot blokkeres i økende grad.
Google gjorde sannsynligvis sin rettferdige andel av risque' dataskraping, men det eier enorme mengder proprietære data. Det er ikke klart hva som gikk inn i Geminis treningsdatasett, men det kan lett inkludere data fra YouTube, Google Books, Google Scholar og den enorme søkeindeksen.
Forhåpentligvis trenger vi ikke å vente til desember for å få noen reelle benchmarking-sammenligninger for å se om Gemini virkelig er bedre enn GPT-4. Kan OpenAI vente med å lansere GPT-5 akkurat lenge nok til å trumfe Gemini etter lanseringen?