Google devrait publier Gemini, son nouveau LLM, en décembre, et l'on s'attend à ce qu'il surpasse GPT-4 d'assez loin.
Gemini est un modèle fondamental créé de toutes pièces par les équipes DeepMind et Brain AI de Google. Il s'agit du premier modèle véritablement multimodal, c'est-à-dire capable de traiter du texte, des images et des vidéos. GPT-4 n'obtient que 2 sur 3 sur ce point.
Une grande partie du battage médiatique autour des performances de Gemini repose sur une rapport de Semi Analysis qui affirme hardiment que "Gemini Smashes GPT-4 By 5X" (Le Gemini pulvérise le GPT-4 par 5 fois).
Le chiffre de 5 fois la performance fait référence à la puissance de calcul utilisée pour entraîner Gemini. On estime qu'elle est environ 5 fois supérieure à celle utilisée pour entraîner GPT-4. La puissance de calcul est une référence intéressante, mais plus de FLOPS n'implique pas automatiquement un meilleur modèle.
En l'absence de chiffres officiels sur les performances, Sam Altman s'est empressé de tweeter un commentaire sarcastique sur ces affirmations.
Incroyable que Google ait obtenu de ce type de semi-analyse qu'il publie son tableau interne de marketing/recrutement lol
- Sam Altman (@sama) 29 août 2023
Elon Musk a répondu à son tweet en demandant "Les chiffres sont-ils erronés ?", mais n'a pas obtenu de réponse de la part d'Altman.
Gemini compte plus de 430 milliards de paramètres, contre 200 milliards pour le modèle GPT-4. Il aurait fallu beaucoup de puissance de traitement pour entraîner un modèle de cette taille, et Google n'en manque pas.
Le rapport de Semi Analysis a utilisé les termes "riche en GPU" et "pauvre en GPU" pour comparer Google avec des startups spécialisées dans l'IA qui disposent d'une puissance de calcul nettement inférieure.
La comparaison est juste, même si l'utilisation du terme "GPU" dans le cas de Google est quelque peu erronée. Le véritable avantage de Google dans l'entraînement de ses modèles réside dans ses unités de traitement tensoriel (Tensor Processing Units ou TPU) propriétaires.
Alors que tout le monde se précipite pour acheter les GPU de Nvidia, Google est largement en tête de la course à la formation de modèles avec ses puces TPU. Gemini a été entraîné sur les puces TPUv5 de Google, qui peuvent fonctionner simultanément avec 16 384 puces.
Gemini et AlphaGo
Une partie de la sauce secrète de Gemini provient de la façon dont Google a intégré les capacités d'AlphaGo. AlphaGo est le programme développé par DeepMind qui a battu le champion du monde du jeu de Go.
La prise de décision stratégique et la compréhension du contexte dynamique qui ont conduit à cette victoire devraient donner à Gemini un avantage considérable sur la capacité de raisonnement de GPT-4.
AlphaGo s'est amélioré au jeu de go en jouant contre lui-même. Gemini pourrait utiliser le même type d'auto-jeu pour apprendre de ses propres interactions, et pas seulement de celles des utilisateurs.
Les données sont la véritable différence
L'avantage le plus important de Google réside probablement dans le volume de données dont il dispose pour former Gemini.
OpenAI s'est emparée de toutes les données Internet qu'elle a pu recueillir, mais elle se bat maintenant contre la concurrence. des poursuites inévitables et voit son GPTBot de plus en plus bloqué.
Google a probablement fait sa part de grattage de données "risqué", mais il possède d'énormes quantités de données propriétaires. Le contenu de l'ensemble de données d'entraînement de Gemini n'est pas clair, mais il pourrait facilement inclure des données provenant de YouTube, de Google Books, de Google Scholar et de son énorme index de recherche.
Espérons que nous n'aurons pas à attendre jusqu'en décembre pour obtenir de véritables comparaisons de benchmarking et voir si Gemini est vraiment meilleur que GPT-4. OpenAI pourrait-elle retarder la sortie de GPT-5 juste assez longtemps pour battre Gemini après son lancement ?