xAI présente Grok-1.5 et crée un nouveau benchmark appelé RealWorldQA

14 avril 2024

  • L'entreprise xAI d'Elon Musk a présenté en avant-première son deuxième modèle de fondation, Grok-1.5.
  • Grok-1.5 rivalise bien avec les principaux modèles, en particulier dans les tâches de vision.
  • xAI a également établi une nouvelle référence pour tester les compétences en matière de vision d'un modèle

L'entreprise xAI d'Elon Musk a dévoilé Grok-1.5, un modèle d'IA multimodale conçu pour surpasser ses concurrents dans la compréhension de scénarios du monde réel. 

Dans la lignée d'autres logiciels, comme GPT-4V, le nouveau Grok-1.5 introduit le traitement visuel pour analyser tous les types de documents, de diagrammes, de captures d'écran et de photographies.

Grok-1.5 gagne également du terrain dans les tâches de texte, de codage et de mathématiques, obtenant 50,6% sur le benchmark MATH, 90% sur le benchmark GSM8K et 74,1% sur le benchmark HumanEval. 

Cela place Grok-1.5 dans la catégorie des poids lourds du LLM, avec des scores en moyenne légèrement inférieurs à ceux de Gemini Pro 1.5, GPT-4 et Claude 3 Opus.

Grok
Critères de référence compétitifs de Grok-1.5 pour le texte, les mathématiques et le codage. Source : xAI

Grok-1.5 offre également une compréhension plus longue du contexte, jusqu'à 128 000 jetons, soit une augmentation de 16 fois par rapport à son prédécesseur, mais bien en deçà de ce que proposent Claude 3 Opus et Gemini 1.5 Pro.

L'évaluation Needle In A Haystack (NIAH) a démontré la capacité de Grok-1.5 à localiser du texte intégré dans des contextes d'une longueur maximale de 128 000 tokens.

Cependant, ce sont les compétences de Grok-1.5 en matière de vision que xAI pousse le plus loin.

Démonstrations montrent Grok-1.5 convertissant des schémas de blocs en code Python, générant des histoires à dormir debout inspirées de peintures d'enfants, créant des ensembles de données CSV à partir de captures d'écran, et même "développant" des mèmes. 

Grok-1.5 arrive en tête de certains benchmarks établis comme Mathvista et TextVQA et obtient les meilleurs résultats dans le nouveau benchmark de xAI, RealWorldQA.

Les performances impressionnantes de Grok-1.5 en matière de vision. Source : xAI

Sous le capot, Grok-1.5 est alimenté par un cadre de formation distribué personnalisé qui permet à l'équipe de xAI de prototyper des idées et de former de nouvelles architectures à l'échelle avec un minimum d'effort.

xAI était fondée l'année dernière et comprend certains des meilleurs chercheurs en IA du monde, avec l'objectif très ambitieux de "comprendre l'univers". 

Jusqu'à présent, nous avons eu le Grok-1, un personnage spirituel et farfelu qui explique aux gens comment synthétiser des stupéfiants et des médicaments. critique Musk et Tesla.

Grok est également connecté à la base de données postales de X, ce qui, entre autres particularités, lui a valu un certain nombre d'adeptes, même s'il ne rivalise pas avec les leaders en termes de performances pures. 

Le projet xAI de Musk remet en question l'écosystème essentiellement fermé de l'IA générative, en rendant ses modèles généralement disponibles sous une véritable licence. les licences open-source

Associée à Meta, qui a la même intention d'aller à l'encontre des concurrents, la thèse ouverte de xAI pourrait devenir une épine dans les efforts de monétisation d'OpenAI, de Microsoft, d'Anthropic et de Google.

RealWorldQA

Lors de l'avant-première de Grok-1.5, xAI a également dévoilé RealWorldQA, un nouveau test de référence composé de plus de 700 images, chacune accompagnée d'une question et d'une réponse vérifiable.

L'ensemble de données comprend principalement des images anonymes capturées à partir de véhicules et d'autres situations du monde réel.

L'ensemble de données RealWorldQA est conçu pour évaluer les capacités de compréhension spatiale de Grok 1.5 et d'autres modèles d'IA multimodale. xAI a estimé que d'autres points de référence manquaient dans ce domaine. 

Grok
L'ensemble de données de référence RealWorldQA vise à tester la capacité des modèles à comprendre des scènes naturelles. Source : xAI

Grok-1.5 surpasse ses concurrents dans RealWorldQA, et il sera intéressant de voir s'il s'impose.

Bien qu'il ne permette pas de comprendre l'univers, Grok-1.5 s'inscrit comme un modèle de premier plan dans une gamme qui ne cesse de s'étoffer.

Cela montre également que l'IA générative, dans sa forme actuelle, atteint les sommets de ses capacités, mais peut-être pas pour longtemps. 

Rejoindre l'avenir


SOUSCRIRE AUJOURD'HUI

Clair, concis, complet. Maîtrisez les développements de l'IA avec DailyAI

Sam Jeans

Sam est un rédacteur scientifique et technologique qui a travaillé dans diverses start-ups spécialisées dans l'IA. Lorsqu'il n'écrit pas, on peut le trouver en train de lire des revues médicales ou de fouiller dans des boîtes de disques vinyles.

×

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI

Inscrivez-vous à notre newsletter hebdomadaire et recevez un accès exclusif au dernier eBook de DailyAI : 'Mastering AI Tools : Your 2024 Guide to Enhanced Productivity" (Maîtriser les outils de l'IA : votre guide 2024 pour une meilleure productivité).

*En vous abonnant à notre lettre d'information, vous acceptez nos conditions d'utilisation. Politique de confidentialité et notre Conditions générales d'utilisation