Google a lancé sa famille Gemini de modèles d'IA multimodaux, une initiative spectaculaire dans un secteur encore sous le choc des événements de l'OpenAI.
Gemini est une famille de modèles multimodaux capables de traiter et de comprendre un mélange de textes, d'images, de sons et de vidéos.
Sundar Pichai, PDG de Google, et Demis Hassabis, PDG de Google DeepMind, attendent beaucoup de Gemini. Google prévoit de l'intégrer dans l'ensemble de ses produits et services, notamment la recherche, Maps et Chrome.
Nous avons le plaisir d'annoncer le lancement de 𝗚𝗲𝗺𝗶𝗻𝗶 : @GoogleLe modèle d'IA le plus grand et le plus performant de l'Union européenne.
Conçue pour être nativement multimodale, elle peut comprendre et fonctionner avec du texte, du code, de l'audio, de l'image et de la vidéo - et atteint des performances de pointe dans de nombreuses tâches. 🧵 https://t.co/mwHZTDTBuG pic.twitter.com/zfLlCGuzmV
- Google DeepMind (@GoogleDeepMind) 6 décembre 2023
Gemini se targue d'une multimodalité complète, traitant et interagissant avec du texte, des images, de la vidéo et de l'audio. Alors que nous nous sommes habitués au traitement du texte et de l'image, l'audio et la vidéo ouvrent de nouvelles perspectives, offrant de nouvelles façons passionnantes de gérer les médias riches.
Hassabis note que "ces modèles comprennent mieux le monde qui les entoure".
M. Pichai a souligné l'interconnexion du modèle avec les produits et services de Google, en déclarant : "L'une des grandes forces de ce moment est qu'il est possible de travailler sur une technologie sous-jacente et de l'améliorer, et que cela se répercute immédiatement sur nos produits".
Les Gémeaux prendront trois formes différentes, à savoir
- Gemini Nano : Une version allégée adaptée aux appareils Android, permettant des fonctionnalités hors ligne et natives.
- Gemini Pro : Une version plus avancée, destinée à alimenter de nombreux services d'IA de Google, dont Bard.
- Gemini Ultra : L'itération la plus puissante, conçue principalement pour les centres de données et les applications d'entreprise, devrait sortir l'année prochaine.
En termes de performances, Google affirme que Gemini surpasse GPT-4 dans 30 des 32 points de référence, excellant particulièrement dans la compréhension et l'interaction avec la vidéo et l'audio. Cette performance est attribuée à la conception de Gemini en tant que modèle multisensoriel dès le départ.
Bard bénéficie de sa plus grande mise à jour avec une version spécialement adaptée de Gemini Pro.
À partir d'aujourd'hui, il sera beaucoup plus performant dans des domaines tels que :
🔘 Compréhension
🔘 Résumer
🔘 Raisonnement
🔘 Codage
🔘 PlanificationEt plus encore. ↓ https://t.co/TJR12OioxU
- Google DeepMind (@GoogleDeepMind) 6 décembre 2023
En outre, Google a tenu à souligner l'efficacité de Gemini.
Formé sur les propres unités de traitement tensoriel (TPU) de Google, il est plus rapide et plus rentable que les modèles précédents. Parallèlement à Gemini, Google lance TPU v5p pour les centres de données, afin d'améliorer l'efficacité de l'exécution des modèles à grande échelle.
Gemini est-il le tueur du ChatGPT ?
Google est manifestement optimiste à l'égard de Gemini. Plus tôt dans l'année, un Fuite" par Semi Analysis a suggéré que Gemini pourrait faire exploser la concurrence et faire passer Google du statut de membre périphérique de l'industrie de l'IA générative à celui de personnage principal de l'OpenAI.
Outre sa multi-modalité, Gemini serait le premier modèle à surpasser les experts humains dans le cadre de l'étude comparative MMLU (massive multitask language understanding), qui teste la connaissance du monde et les capacités de résolution de problèmes dans 57 domaines, tels que les mathématiques, la physique, l'histoire, le droit, la médecine et l'éthique.
Selon M. Pichai, le lancement de Gemini marque le début d'une "nouvelle ère" dans le domaine de l'IA, en soulignant que Gemini bénéficiera du vaste catalogue de produits de Google.
L'intégration des moteurs de recherche est particulièrement intéressante, car Google domine cet espace et bénéficie de l'index de recherche le plus complet au monde.
La sortie de Gemini place Google fermement dans la course à l'IA en cours, et les gens vont tout faire pour le tester par rapport à GPT-4.
Tests et analyses de référence Gemini
Dans un article de blogGoogle a publié des résultats de tests qui montrent que Gemini Ultra surpasse GPT-4 dans la majorité des tests. Il se targue également de capacités de codage avancées, avec des performances remarquables dans les tests de codage tels que HumanEval et Natural2Code.
Voici les données de référence. Attention, ces mesures utilisent la version Gemini Ultra qui n'est pas encore sortie. Gemini ne peut pas être considéré comme un tueur de ChatGPT avant l'année prochaine. Et vous pouvez parier sur le fait qu'OpenAI s'efforcera de contrer Gemini dès que possible.
Performances de référence en matière de texte/NLP
Connaissances générales :
- MMLU (Massive Multitask Language Understanding) :
- Gemini Ultra : 90.0% (Chaîne de pensée à 32 exemples)
- GPT-4 : 86.4% (5 coups, rapporté)
Raisonnement :
- Big-Bench Hard (ensemble diversifié de tâches difficiles nécessitant un raisonnement en plusieurs étapes) :
- Gemini Ultra : 83.6% (3 coups)
- GPT-4 : 83.1% (3 coups, API)
- DROP (compréhension de l'écrit, score F1) :
- Gemini Ultra : 82,4 (tirs variables)
- GPT-4 : 80,9 (3 coups, rapporté)
- HellaSwag (raisonnement sensé pour les tâches quotidiennes) :
- Gemini Ultra : 87.8% (10 coups)
- GPT-4 : 95.3% (10 coups, rapporté)
Math :
- GSM8K (manipulations arithmétiques de base, y compris les problèmes mathématiques de l'école primaire) :
- Gemini Ultra : 94,4% (majorité à 32 exemples)
- GPT-4 : 92.0% (Chaîne de pensée à 5 coups, rapportée)
- MATH (Problèmes mathématiques difficiles, y compris algèbre, géométrie, pré-calcul, et autres) :
- Gemini Ultra : 53.2% (4 coups)
- GPT-4 : 52.9% (4 coups, API)
Code :
- HumanEval (génération de code Python) :
- Gemini Ultra : 74,4% (0 coup, test interne)
- GPT-4 : 67.0% (0 coup, rapporté)
- Natural2Code (génération de code Python, nouvel ensemble de données retenu, semblable à HumanEval, non divulgué sur le web) :
- Gemini Ultra : 74.9% (0 tir)
- GPT-4 : 73.9% (0 tir, API)
Performances de référence multimodales
Les capacités multimodales du modèle d'IA Gemini de Google sont également comparées à celles du modèle GPT-4V d'OpenAI.
Compréhension et traitement des images :
- MMMU (Multi-discipline College-level Reasoning Problems) :
- Gemini Ultra : 59.4% (0-shot pass@1, pixel seulement)
- GPT-4V : 56.8% (0-shot pass@1)
- VQAv2 (Natural Image Understanding) :
- Gemini Ultra : 77.8% (0-shot, pixel seulement)
- GPT-4V : 77.2% (0 coup)
- TextVQA (OCR sur images naturelles) :
- Gemini Ultra : 82.3% (0-shot, pixel seulement)
- GPT-4V : 78.0% (0 coup)
- DocVQA (compréhension des documents) :
- Gemini Ultra : 90.9% (0-shot, pixel uniquement)
- GPT-4V : 88.4% (0-shot, pixel seulement)
- VQA infographique (compréhension de l'infographie) :
- Gemini Ultra : 80.3% (0-shot, pixel seulement)
- GPT-4V : 75.1% (0-shot, pixel uniquement)
- MathVista (raisonnement mathématique dans des contextes visuels) :
- Gemini Ultra : 53.0% (0-shot, pixel uniquement)
- GPT-4V : 49.9% (0 coup)
Traitement vidéo :
- VATEX (sous-titrage vidéo en anglais, score CIDEr) :
- Gemini Ultra : 62,7 (4 coups)
- DeepMind Flamingo : 56.0 (4 coups)
- Test de perception MCQA (Video Question Answering) :
- Gemini Ultra : 54.7% (0 tir)
- SeViLA : 46.3% (0 tir)
Traitement audio :
- CoVoST 2 (traduction automatique de la parole, 21 langues, score BLEU) :
- Gemini Pro : 40.1
- Whisper v2 : 29.1
- FLEURS (Reconnaissance automatique de la parole, 62 langues, taux d'erreur de mots) :
- Gemini Pro : 7.6% (plus c'est bas, mieux c'est)
- Whisper v3 : 17.6%
L'engagement éthique de Google
Dans un article de blogGoogle a souligné son engagement en faveur de pratiques responsables et éthiques en matière d'IA.
Selon Google, Gemini a fait l'objet de tests plus rigoureux que toutes les autres IA de Google, évaluant des facteurs tels que la partialité, la toxicité, les menaces pour la cybersécurité et le potentiel d'utilisation abusive. Des techniques contradictoires ont permis de détecter les problèmes à un stade précoce. Des experts externes ont ensuite soumis les modèles à des tests de résistance et à des "équipes rouges" afin d'identifier d'autres points faibles.
Google affirme que la responsabilité et la sécurité resteront des priorités au milieu des progrès rapides de l'IA. L'entreprise a contribué à la création de groupes industriels chargés d'établir les meilleures pratiques, notamment MLCommons et le Secure AI Framework (SAIF).
Google s'engage à poursuivre sa collaboration avec les chercheurs, les gouvernements et les organisations de la société civile du monde entier.
Gemini Ultra release
Pour l'instant, Google limite l'accès à son modèle le plus puissant, Gemini Ultra, qui sera disponible au début de l'année prochaine.
Avant cela, des développeurs et des experts triés sur le volet expérimenteront Ultra pour donner leur avis. Le lancement coïncidera avec celui d'une nouvelle plateforme de modèles d'IA de pointe, ou, comme Google l'appelle, d'une "expérience", baptisée Bard Advanced.
Gemini pour les développeurs
À partir du 13 décembre, les développeurs et les entreprises clientes auront accès à Gemini Pro via l'API Gemini, disponible dans Google AI Studio ou Google Cloud Vertex AI.
Google AI Studio : Outil convivial basé sur le web, Google AI Studio est conçu pour aider les développeurs à créer des prototypes et à lancer des applications à l'aide d'une clé API. Cette ressource gratuite est idéale pour ceux qui en sont aux premières étapes du développement d'applications.
Vertex AI : Plateforme d'IA plus complète, Vertex AI offre des services entièrement gérés. Elle s'intègre de manière transparente à Google Cloud, tout en garantissant la sécurité de l'entreprise, la confidentialité et la conformité aux réglementations en matière de gouvernance des données.
En plus de ces plateformes, les développeurs Android pourront accéder à Gemini Nano pour des tâches sur l'appareil. Il sera possible de l'intégrer via AICore. Cette nouvelle capacité du système devrait faire ses débuts dans Android 14, en commençant par les appareils Pixel 8 Pro.
Google a les cartes en main, pour l'instant
OpenAI et Google se distinguent sur un point important : Google développe en interne de nombreux autres outils et produits, y compris ceux utilisés par des milliards de personnes chaque jour.
Il s'agit bien sûr d'Android, de Chrome, de Gmail, de Google Workplace et de Google Search.
OpenAI, grâce à son alliance avec Microsoft, a des possibilités similaires avec Copilot, mais cela n'a pas encore vraiment décollé.
Et si nous sommes honnêtes, Google a probablement une influence sur ces catégories de produits.
Google a poursuivi sa course à l'IA, mais vous pouvez être sûr que cela ne fera qu'alimenter la progression d'OpenAI vers le GPT-5 et l'AGI.