xAI, la empresa de Elon Musk, ha revelado Grok-1.5, un modelo de IA multimodal diseñado para superar a sus competidores en la comprensión de escenarios del mundo real.
Siguiendo los pasos de otros, como GPT-4V, el nuevo Grok-1.5 introduce el procesamiento visual para analizar cualquier cosa, desde documentos y diagramas hasta gráficos, capturas de pantalla y fotografías.
Grok-1.5 también gana terreno en tareas de texto, codificación y matemáticas, con una puntuación de 50,6% en la prueba MATH, 90% en la prueba GSM8K y 74,1% en la prueba HumanEval.
Esto sitúa a Grok-1.5 en el grupo de los pesos pesados de LLM, con puntuaciones medias ligeramente inferiores a Gemini Pro 1.5, GPT-4 y Claude 3 Opus.
Grok-1.5 también ofrece una mayor comprensión del contexto, hasta 128.000 tokens, lo que supone un aumento de 16 veces respecto a su predecesor, aunque muy por detrás de los ofrecidos por Claude 3 Opus y Gemini 1.5 Pro.
La evaluación Needle In A Haystack (NIAH) demostró la capacidad de Grok-1.5 para localizar texto incrustado en contextos de hasta 128.000 tokens de longitud.
Sin embargo, son las habilidades de visión de Grok-1.5 las que xAI está impulsando con más fuerza.
Demos muestran a Grok-1.5 convirtiendo esquemas de bloques en código Python, generando cuentos para dormir inspirados en pinturas infantiles, creando conjuntos de datos CSV a partir de capturas de pantalla e incluso "expandiendo" memes.
Grok-1.5 encabeza la clasificación en algunas pruebas de referencia establecidas, como Mathvista y TextVQA, y obtiene la puntuación más alta en la nueva prueba de referencia de xAI, RealWorldQA.
Bajo el capó, Grok-1.5 funciona con un marco de formación distribuida personalizado que permite al equipo de xAI crear prototipos de ideas y formar nuevas arquitecturas a escala con el mínimo esfuerzo.
xAI fue fundada el año pasado e incluye a algunos de los mejores investigadores de IA del mundo con el objetivo ultraambicioso de "Entender el universo".
Hasta ahora, tenemos el ingenioso y extravagante Grok-1 que explica a la gente cómo sintetizar narcóticos y critica a Musk y Tesla.
Grok también está conectado a la base de datos de puestos de X, lo que, entre otras peculiaridades, le ha dado bastantes seguidores a pesar de no molestar a los líderes en rendimiento puro.
El proyecto xAI de Musk desafía el ecosistema de código cerrado de la IA generativa, poniendo sus modelos a disposición del público en general bajo verdaderos estándares de calidad. licencias de código abierto.
Combinada con Meta, que tiene una intención similar de ir a contracorriente de los competidores, la tesis abierta de xAI podría convertirse en una espina clavada en los esfuerzos de monetización de OpenAI, Microsoft, Anthropic y Google.
RealWorldQA
En el avance de Grok-1.5, xAI también desveló el RealWorldQA, una nueva prueba comparativa compuesta por más de 700 imágenes, cada una de ellas acompañada de una pregunta y una respuesta verificable.
El conjunto de datos se compone principalmente de imágenes anónimas captadas de vehículos y otras situaciones del mundo real.
El conjunto de datos RealWorldQA está diseñado para evaluar las capacidades de comprensión espacial de Grok 1.5 y otros modelos de IA multimodal. xAI consideró que otros puntos de referencia eran deficientes en este departamento.
Grok-1.5 supera a sus competidores en RealWorldQA, y será interesante ver si se pone de moda.
Aunque no llega a comprender el universo, Grok-1.5 ocupará su lugar como otro modelo de primer nivel en una gama cada vez más amplia.
Esto también demuestra que la IA generativa, en su forma actual, está llegando al límite de sus posibilidades, aunque quizá no por mucho tiempo.