Google joue une nouvelle carte de l'IA avec Gemini 1.5 Pro

15 février 2024

Gemini AI

Google joue une nouvelle carte avec Gemini 1.5 Pro, un modèle qui s'appuie sur les réalisations de son prédécesseur, Gemini 1.0. 

Google Bard étant mort et enterré, la famille Gemini semble se multiplier plus vite que la communauté de l'IA ne peut le suivre.

Voici maintenant Gemini 1.5 Pro, qui est plus efficace que l'ancien modèle phare de Google, Gemini Ultra.

En fait, Gemini 1.5 Pro l'emporte sur Ultra dans une poignée de tests de référence, mais nous aurons besoin de plus d'informations pour une comparaison complète.

Modèle de référence Gemini
Modèle de référence Gemini

Gemini 1.5 Pro offre une nouvelle architecture de mélange d'experts (MoE) et surpasse Gemini Pro (désormais appelé Gemini 1.0 Pro) dans 87% de tests de référence. 

Elle est disponible sur la nouvelle plateforme d'IA payante de Google, Google One AI Premium, qui remplace Gemini Pro, malgré le fait que Google n'est pas le seul à l'utiliser. mise à niveau il y a quelques semaines.

Quel est donc l'intérêt d'un modèle qui surpasse le 1.0 Pro mais qui est similaire à l'Ultra ?

Outre une efficacité informatique accrue par rapport à l'Ultra et des performances supérieures dans certains domaines, la principale caractéristique de Gemini 1.5 Pro est son Fenêtre contextuelle de 128 000 jetons, extensible à 1 million de jetons. Ce chiffre est supérieur à celui de GPT-4 Turbo (128 000) et à celui de Claude 2.1 (200 000). 

Pour mettre en perspective une fenêtre d'un million de contextes, cela correspond en gros à 700 000 mots, 11 heures d'audio ou 1 heure de vidéo.

Cela permet de traiter et d'interpréter des ensembles de données colossaux, y compris des livres entiers. Toutefois, Google souligne que Gemini 1.5 Pro reste un modèle multimodal "de taille moyenne" conçu pour être évolutif et polyvalent. 

Gemini 1.5 est-il un tueur de GPT-4 ? Certainement pasEn revanche, il devrait le surpasser pour des tâches spécifiques impliquant de très grandes quantités d'informations, comme Google a tenu à le démontrer. 

Applications et capacités de Gemini

Comme ses prédécesseurs, les capacités de Gemini 1.5 Pro s'étendent à de multiples modalités, du texte à la vidéo et à l'audio.

Sa fenêtre contextuelle étendue permet au modèle de traiter et de raisonner sur de grandes quantités d'informations, telles que de longs documents, des bases de code étendues ou des heures de contenu vidéo. 

Dans une démo Google, Gemini 1.5 Pro peut comprendre et identifier des détails dans les 402 pages de la transcription de la mission d'Apollo 11 sur la lune. 

Un autre défi consistait à localiser des scènes spécifiques du film "Sherlock Jr." de Buster Keaton à l'aide de descriptions et de croquis, ce que 1,5 Pro a réussi à faire, même si cela prenait parfois jusqu'à une minute. 

Dans une autre tâche, Gemini 1.5 Pro a été mis au défi de traduire l'anglais dans la langue guinéenne complexe, le kalamang, et vice versa.

Cette tâche était d'autant plus ardue que Kalamang n'est pas représentée dans les données d'apprentissage du modèle.

Google a fourni au modèle du matériel pédagogique dans son contexte d'entrée, y compris environ 500 pages de grammaire de référence, une liste de mots bilingue (dictionnaire) avec environ 2 000 entrées, et un ensemble d'environ 400 phrases parallèles.

Ces matériaux comprenaient environ 250 000 jetons, ce qui correspond à la fenêtre contextuelle étendue du modèle.

Avec le seul matériel pédagogique fourni, Gemini 1.5 Pro a réussi à traduire des phrases entre l'anglais et le kalamang. Cette expérience a mis en évidence la capacité du modèle à absorber et à appliquer de nouvelles règles linguistiques et un nouveau vocabulaire à partir du contexte, ce qui permet d'apprendre une nouvelle langue à la volée.

La qualité des traductions produites par Gemini 1.5 Pro a été évaluée par des experts humains qui ont comparé les performances du modèle à celles d'un apprenant en langue humaine à partir du même ensemble de documents.

Une autre démonstration a permis d'évaluer les performances du modèle dans l'analyse et la résolution de problèmes sur plus de 100 000 lignes de code.

Aperçu du document de recherche de Gemini 1.5 Pro

Google a publié un document de recherche sur Gemini 1.5, intitulé "...Gemini 1.5 : Déverrouiller la compréhension multimodale à travers des millions de jetons de contexte." 

Il est clair que Google a l'intention de pousser la fenêtre contextuelle étendue de Gemini 1.5 Pro, qui domine actuellement les autres LLM à l'extrémité supérieure de ses 1 million de jetons.

Gemini 1.5 Pro permet d'obtenir un rappel quasi parfait dans les tâches d'extraction en contexte long dans différentes modalités et établit de nouvelles normes en matière d'assurance qualité de documents longs, d'assurance qualité de vidéos longues et d'ASR en contexte long.

Le document détaille les performances de Gemini 1.5 Pro dans diverses capacités de base, en les comparant aux modèles Gemini 1.0 :

  • Amélioration du taux de réussite: Gemini 1.5 Pro affiche un taux de réussite de 87,1% par rapport à Gemini 1.0 Pro et un taux de réussite de 54,8% par rapport à Gemini 1.0 Ultra sur de nombreux bancs d'essai, ce qui démontre ses améliorations.
  • Performances dans des domaines spécifiques: Dans les tâches liées au texte, le modèle obtient un taux de victoire de 100% contre Gemini 1.0 Pro et un taux de victoire de 77% contre Gemini 1.0 Ultra. Dans les tâches liées à la vision, les taux de victoire sont de 77% et 46% contre Gemini 1.0 Pro et Ultra, respectivement. Les tâches audio affichent un taux de victoire de 60% contre Gemini 1.0 Pro et un taux de victoire de 20% contre Gemini 1.0 Ultra.

Dans l'ensemble, Gemini 1.5 Pro est un bon Modèle de niveau GPT-3.5 avec une fenêtre contextuelle plus longue que celle des concurrents. 

Est-ce suffisant pour détourner les gens de ChatGPT ? La vérité est qu'à moins d'avoir des livres entiers à analyser, les avantages peuvent être minces, voire inexistants. 

Comment utiliser Gemini 1.5 Pro

Gemini 1.5 est actuellement disponible en avant-première limitée pour les développeurs et les entreprises.

Les questions relatives à la tarification et à l'accessibilité à long terme sont restées sans réponse. Google a laissé entendre que les prix varieraient en fonction de la taille de la fenêtre contextuelle, de 128 000 jetons à 1 million. 

Le coût exact n'a pas été dévoilé, ce qui suscite des spéculations sur l'investissement potentiel nécessaire pour tirer parti de cette fenêtre contextuelle avancée.

Certains ont souligné qu'au moment où Gemini 1.5 Pro sera disponible pour le grand public, la concurrence aura évolué. 

Google se différencie par un produit que seuls quelques utilisateurs précoces peuvent expérimenter. Cela semble un peu aliénant.

La famille des Gémeaux : accessible ou ésotérique ?

En l'espace de deux ou trois mois environ, Google a créé et tué Bard, en l'échangeant avec Gemini Pro et en lançant Ultra, Nano, et maintenant Gemini 1.5 Pro. 

Cela a impliqué de renommer Gemini Pro (qui était juste Gemini ?) en Gemini 1.0 Pro.

Grâce à cette dépense d'IA, Page d'accueil de DeepMind pour la famille Gemini est franchement alambiqué et encombré. 

OpenAI, à bien des égards, a réussi un tour de force marketing en gardant ses modèles sous l'égide de "ChatGPT" dès le début et en limitant plus ou moins l'accès à la version gratuite GPT-3.5 et à la version payante GPT-4 pour les utilisateurs ne faisant pas partie de l'API. 

Gemini, c'est Google qui se lance à corps perdu dans l'IA générative, mais il risque de s'enliser dans ses offres de produits de plus en plus ambiguës.

Rejoindre l'avenir


SOUSCRIRE AUJOURD'HUI

Clair, concis, complet. Maîtrisez les développements de l'IA avec DailyAI

Sam Jeans

Sam est un rédacteur scientifique et technologique qui a travaillé dans diverses start-ups spécialisées dans l'IA. Lorsqu'il n'écrit pas, on peut le trouver en train de lire des revues médicales ou de fouiller dans des boîtes de disques vinyles.

×

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI

Inscrivez-vous à notre newsletter hebdomadaire et recevez un accès exclusif au dernier eBook de DailyAI : 'Mastering AI Tools : Your 2024 Guide to Enhanced Productivity" (Maîtriser les outils de l'IA : votre guide 2024 pour une meilleure productivité).

*En vous abonnant à notre lettre d'information, vous acceptez nos conditions d'utilisation. Politique de confidentialité et notre Conditions générales d'utilisation