Google dovrebbe rilasciare Gemini, il suo nuovo LLM, a dicembre e si prevede che supererà il GPT-4 di qualche punto.
Gemini è un modello fondamentale costruito da zero dai team DeepMind e Brain AI di Google. È il primo modello veramente multimodale, cioè in grado di elaborare testo, immagini e video. Il GPT-4 ottiene solo 2 punti su 3 su questo punteggio.
Molto del clamore che circonda la performance di Gemini si basa su una rapporto di Semi Analysis che afferma audacemente che "Gemini supera il GPT-4 di 5 volte".
La cifra di 5x è un riferimento alla potenza di calcolo utilizzata per addestrare Gemini. Si stima che sia circa 5 volte superiore a quella utilizzata per addestrare GPT-4. La potenza di calcolo è un parametro interessante, ma un maggior numero di FLOPS non implica automaticamente un modello migliore.
In assenza di dati ufficiali sulle prestazioni, Sam Altman ha subito twittato un commento sarcastico sulle affermazioni.
incredibile che google abbia fatto pubblicare a quel tizio di semianalisi il loro grafico interno di marketing/recruiting lol
- Sam Altman (@sama) 29 agosto 2023
Elon Musk ha risposto al suo tweet chiedendo: "I numeri sono sbagliati?", ma non ha ottenuto risposta da Altman.
Gemini ha oltre 430 miliardi di parametri, rispetto ai 200 miliardi stimati per il GPT-4. Per addestrare un modello di queste dimensioni ci sarebbe voluta molta potenza di elaborazione, e Google ne ha in abbondanza.
Il rapporto di Semi Analysis ha utilizzato le categorie "ricco di GPU" e "povero di GPU" per confrontare Google con le startup di IA che dispongono di una potenza di calcolo significativamente inferiore.
Il confronto è corretto, anche se l'uso di "GPU" quando si parla di Google è un po' improprio. Il vero vantaggio di Google nell'addestramento dei suoi modelli è rappresentato dalle sue unità di elaborazione dei sensori (Tensor Processing Units o TPU) proprietarie.
Mentre tutti gli altri si affannano ad acquistare le GPU di Nvidia, Google è in vantaggio nella corsa all'addestramento dei modelli con i suoi chip TPU. Gemini è stato addestrato sui chip TPUv5 di Google, che possono operare simultaneamente con 16.384 chip.
Gemini e AlphaGo
Parte della salsa segreta di Gemini deriva dal modo in cui Google ha integrato le capacità di AlphaGo. AlphaGo è il programma sviluppato da DeepMind che ha battuto il campione mondiale del gioco Go.
Il processo decisionale strategico e la comprensione dinamica del contesto che hanno portato a quella vittoria dovrebbero dare a Gemini un grande vantaggio rispetto alla capacità di ragionamento del GPT-4.
AlphaGo è migliorato nel Go giocando contro se stesso. Gemini potrebbe impiegare un'auto-gioco simile per imparare dalle proprie interazioni, e non solo da quelle degli utenti.
I dati sono la vera differenza
Probabilmente il vantaggio più significativo di Google è la mole di dati a sua disposizione per addestrare Gemini.
OpenAI si è accaparrato tutti i dati internet che ha potuto, ma ora sta combattendo contro la inevitabili cause legali e sta vedendo il suo GPTBot sempre più bloccato.
Google ha probabilmente fatto la sua parte di scraping di dati "rischiosi", ma possiede enormi quantità di dati proprietari. Non è chiaro cosa sia stato inserito nel dataset di addestramento di Gemini, ma potrebbe facilmente includere dati provenienti da YouTube, Google Books, Google Scholar e dal suo enorme indice di ricerca.
Speriamo di non dover aspettare fino a dicembre per avere dei veri e propri confronti di benchmark per vedere se Gemini è davvero migliore di GPT-4. È possibile che OpenAI si stia trattenendo dal rilasciare GPT-5 giusto il tempo di battere Gemini dopo il suo lancio?