xAI présente Grok-1.5 et crée un nouveau benchmark appelé RealWorldQA

L'entreprise xAI d'Elon Musk a dévoilé Grok-1.5, un modèle d'IA multimodale conçu pour surpasser ses concurrents dans la compréhension de scénarios du monde réel.

Dans la lignée d'autres logiciels, comme GPT-4V, le nouveau Grok-1.5 introduit le traitement visuel pour analyser tous les types de documents, de diagrammes, de captures d'écran et de photographies.

Grok-1.5 gagne également du terrain dans les tâches de texte, de codage et de mathématiques, obtenant 50,6% sur le benchmark MATH, 90% sur le benchmark GSM8K et 74,1% sur le benchmark HumanEval.

Cela place Grok-1.5 dans la catégorie des poids lourds du LLM, avec des scores en moyenne légèrement inférieurs à ceux de Gemini Pro 1.5, GPT-4 et Claude 3 Opus.

Grok-1.5 offre également une compréhension plus longue du contexte, jusqu'à 128 000 jetons, soit une augmentation de 16 fois par rapport à son prédécesseur, mais bien en deçà de ce que proposent Claude 3 Opus et Gemini 1.5 Pro.

L'évaluation Needle In A Haystack (NIAH) a démontré la capacité de Grok-1.5 à localiser du texte intégré dans des contextes d'une longueur maximale de 128 000 tokens.

Cependant, ce sont les compétences de Grok-1.5 en matière de vision que xAI pousse le plus loin.

Démonstrations montrent Grok-1.5 convertissant des schémas de blocs en code Python, générant des histoires à dormir debout inspirées de peintures d'enfants, créant des ensembles de données CSV à partir de captures d'écran, et même "développant" des mèmes.

Grok-1.5 arrive en tête de certains benchmarks établis comme Mathvista et TextVQA et obtient les meilleurs résultats dans le nouveau benchmark de xAI, RealWorldQA.

Les performances impressionnantes de Grok-1.5 en matière de vision. Source : xAI

Sous le capot, Grok-1.5 est alimenté par un cadre de formation distribué personnalisé qui permet à l'équipe de xAI de prototyper des idées et de former de nouvelles architectures à l'échelle avec un minimum d'effort.

xAI était fondée l'année dernière et comprend certains des meilleurs chercheurs en IA du monde, avec l'objectif très ambitieux de "comprendre l'univers".

Jusqu'à présent, nous avons eu le Grok-1, un personnage spirituel et farfelu qui explique aux gens comment synthétiser des stupéfiants et des médicaments. critique Musk et Tesla.

Grok est également connecté à la base de données postales de X, ce qui, entre autres particularités, lui a valu un certain nombre d'adeptes, même s'il ne rivalise pas avec les leaders en termes de performances pures.

Le projet xAI de Musk remet en question l'écosystème essentiellement fermé de l'IA générative, en rendant ses modèles généralement disponibles sous une véritable licence. les licences open-source.

Associée à Meta, qui a la même intention d'aller à l'encontre des concurrents, la thèse ouverte de xAI pourrait devenir une épine dans les efforts de monétisation d'OpenAI, de Microsoft, d'Anthropic et de Google.

RealWorldQA

Lors de l'avant-première de Grok-1.5, xAI a également dévoilé RealWorldQA, un nouveau test de référence composé de plus de 700 images, chacune accompagnée d'une question et d'une réponse vérifiable.

L'ensemble de données comprend principalement des images anonymes capturées à partir de véhicules et d'autres situations du monde réel.

L'ensemble de données RealWorldQA est conçu pour évaluer les capacités de compréhension spatiale de Grok 1.5 et d'autres modèles d'IA multimodale. xAI a estimé que d'autres points de référence manquaient dans ce domaine.

Grok-1.5 surpasse ses concurrents dans RealWorldQA, et il sera intéressant de voir s'il s'impose.

Bien qu'il ne permette pas de comprendre l'univers, Grok-1.5 s'inscrit comme un modèle de premier plan dans une gamme qui ne cesse de s'étoffer.

Cela montre également que l'IA générative, dans sa forme actuelle, atteint les sommets de ses capacités, mais peut-être pas pour longtemps.

xAI présente Grok-1.5 et crée un nouveau benchmark appelé RealWorldQA

RealWorldQA

Rejoindre l'avenir

Sam Jeans

ARTICLES ASSOCIÉS

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

xAI présente Grok-1.5 et crée un nouveau benchmark appelé RealWorldQA

RealWorldQA

Rejoindre l'avenir

Sam Jeans

ARTICLES ASSOCIÉS

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

PDF GRATUIT EXCLUSIFGardez une longueur d'avance avec DailyAI

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI