xAI presenta Grok-1.5 y crea una nueva referencia llamada RealWorldQA

14 de abril de 2024

  • xAI de Elon Musk presenta su segundo modelo básico, Grok-1.5
  • Grok-1.5 compite bien con los modelos punteros, sobre todo en tareas de visión
  • xAI también estableció un nuevo punto de referencia para probar las habilidades visuales de los modelos

xAI, la empresa de Elon Musk, ha revelado Grok-1.5, un modelo de IA multimodal diseñado para superar a sus competidores en la comprensión de escenarios del mundo real. 

Siguiendo los pasos de otros, como GPT-4V, el nuevo Grok-1.5 introduce el procesamiento visual para analizar cualquier cosa, desde documentos y diagramas hasta gráficos, capturas de pantalla y fotografías.

Grok-1.5 también gana terreno en tareas de texto, codificación y matemáticas, con una puntuación de 50,6% en la prueba MATH, 90% en la prueba GSM8K y 74,1% en la prueba HumanEval. 

Esto sitúa a Grok-1.5 en el grupo de los pesos pesados de LLM, con puntuaciones medias ligeramente inferiores a Gemini Pro 1.5, GPT-4 y Claude 3 Opus.

Grok
Puntos de referencia competitivos de texto, matemáticas y codificación de Grok-1.5. Fuente: xAI

Grok-1.5 también ofrece una mayor comprensión del contexto, hasta 128.000 tokens, lo que supone un aumento de 16 veces respecto a su predecesor, aunque muy por detrás de los ofrecidos por Claude 3 Opus y Gemini 1.5 Pro.

La evaluación Needle In A Haystack (NIAH) demostró la capacidad de Grok-1.5 para localizar texto incrustado en contextos de hasta 128.000 tokens de longitud.

Sin embargo, son las habilidades de visión de Grok-1.5 las que xAI está impulsando con más fuerza.

Demos muestran a Grok-1.5 convirtiendo esquemas de bloques en código Python, generando cuentos para dormir inspirados en pinturas infantiles, creando conjuntos de datos CSV a partir de capturas de pantalla e incluso "expandiendo" memes. 

Grok-1.5 encabeza la clasificación en algunas pruebas de referencia establecidas, como Mathvista y TextVQA, y obtiene la puntuación más alta en la nueva prueba de referencia de xAI, RealWorldQA.

Impresionantes pruebas de visión de Grok-1.5. Fuente: xAI

Bajo el capó, Grok-1.5 funciona con un marco de formación distribuida personalizado que permite al equipo de xAI crear prototipos de ideas y formar nuevas arquitecturas a escala con el mínimo esfuerzo.

xAI fue fundada el año pasado e incluye a algunos de los mejores investigadores de IA del mundo con el objetivo ultraambicioso de "Entender el universo". 

Hasta ahora, tenemos el ingenioso y extravagante Grok-1 que explica a la gente cómo sintetizar narcóticos y critica a Musk y Tesla.

Grok también está conectado a la base de datos de puestos de X, lo que, entre otras peculiaridades, le ha dado bastantes seguidores a pesar de no molestar a los líderes en rendimiento puro. 

El proyecto xAI de Musk desafía el ecosistema de código cerrado de la IA generativa, poniendo sus modelos a disposición del público en general bajo verdaderos estándares de calidad. licencias de código abierto

Combinada con Meta, que tiene una intención similar de ir a contracorriente de los competidores, la tesis abierta de xAI podría convertirse en una espina clavada en los esfuerzos de monetización de OpenAI, Microsoft, Anthropic y Google.

RealWorldQA

En el avance de Grok-1.5, xAI también desveló el RealWorldQA, una nueva prueba comparativa compuesta por más de 700 imágenes, cada una de ellas acompañada de una pregunta y una respuesta verificable.

El conjunto de datos se compone principalmente de imágenes anónimas captadas de vehículos y otras situaciones del mundo real.

El conjunto de datos RealWorldQA está diseñado para evaluar las capacidades de comprensión espacial de Grok 1.5 y otros modelos de IA multimodal. xAI consideró que otros puntos de referencia eran deficientes en este departamento. 

Grok
El conjunto de datos de referencia RealWorldQA pretende poner a prueba la capacidad de los modelos para comprender escenas naturales. Fuente: xAI

Grok-1.5 supera a sus competidores en RealWorldQA, y será interesante ver si se pone de moda.

Aunque no llega a comprender el universo, Grok-1.5 ocupará su lugar como otro modelo de primer nivel en una gama cada vez más amplia.

Esto también demuestra que la IA generativa, en su forma actual, está llegando al límite de sus posibilidades, aunque quizá no por mucho tiempo. 

Únete al futuro


SUSCRÍBETE HOY

Claro, conciso y completo. Conozca los avances de la IA con DailyAI

Sam Jeans

Sam es un escritor de ciencia y tecnología que ha trabajado en varias startups de IA. Cuando no está escribiendo, se le puede encontrar leyendo revistas médicas o rebuscando en cajas de discos de vinilo.

×

PDF GRATUITO EXCLUSIVO
Adelántese con DailyAI

Suscríbase a nuestro boletín semanal y reciba acceso exclusivo al último eBook de DailyAI: 'Mastering AI Tools: Su guía 2024 para mejorar la productividad'.

*Al suscribirse a nuestro boletín de noticias, acepta nuestra política de privacidad. Política de privacidad y nuestro Condiciones generales