A xAI pré-visualiza o Grok-1.5 e cria um novo parâmetro de referência chamado RealWorldQA

14 de abril de 2024

  • A xAI de Elon Musk apresentou o seu segundo modelo de fundação, o Grok-1.5
  • O Grok-1.5 compete bem com os principais modelos, particularmente em tarefas de visão
  • A xAI também estabeleceu uma nova referência para testar as capacidades de visão de um modelo

A xAI de Elon Musk revelou o Grok-1.5, um modelo de IA multimodal concebido para vencer a concorrência na compreensão de cenários do mundo real. 

Seguindo os passos de outros, como o GPT-4V, o novo Grok-1.5 introduz o processamento visual para analisar tudo, desde documentos e diagramas a gráficos, capturas de ecrã e fotografias.

Grok-1.5 também ganha terreno em tarefas de texto, codificação e matemática, obtendo 50,6% no parâmetro de referência MATH, 90% no parâmetro de referência GSM8K e 74,1% no parâmetro de referência HumanEval. 

Isto coloca o Grok-1.5 diretamente na categoria de pesos pesados do LLM, com uma média de pontuações ligeiramente inferior à do Gemini Pro 1.5, GPT-4 e Claude 3 Opus.

Grok
Os benchmarks competitivos de texto, matemática e codificação do Grok-1.5. Fonte: xAI

O Grok-1.5 também oferece uma compreensão de contexto mais longa, até 128 mil tokens, um aumento de 16 vezes em comparação com o seu antecessor, embora muito aquém dos apresentados pelo Claude 3 Opus e Gemini 1.5 Pro.

A avaliação Needle In A Haystack (NIAH) demonstrou a capacidade do Grok-1.5 para localizar texto incorporado em contextos com um comprimento máximo de 128K tokens.

No entanto, é nas capacidades de visão do Grok-1.5 que a xAI está a apostar mais.

Demonstrações mostram o Grok-1.5 a converter esquemas de blocos em código Python, a gerar histórias de embalar inspiradas em pinturas de crianças, a criar conjuntos de dados CSV a partir de capturas de ecrã e até a "expandir" memes. 

O Grok-1.5 lidera a tabela de classificação em algumas referências estabelecidas, como o Mathvista e o TextVQA, e obtém as melhores pontuações na nova referência estabelecida pela xAI, o RealWorldQA.

Os impressionantes benchmarks de visão do Grok-1.5. Fonte: xAI

Por baixo do capô, o Grok-1.5 é alimentado por uma estrutura de treinamento distribuída personalizada que permite que a equipe da xAI crie protótipos de ideias e treine novas arquiteturas em escala com o mínimo de esforço.

xAI foi fundada no ano passado e inclui alguns dos melhores investigadores de IA do mundo com o objetivo ultra-ambicioso de "Compreender o universo". 

Até agora, temos o espirituoso e estranho Grok-1 que diz às pessoas como sintetizar narcóticos e critica Musk e a Tesla.

O Grok também está ligado à base de dados de posts do X, o que, entre outras particularidades únicas, lhe deu um grande número de seguidores, apesar de não incomodar os líderes em termos de desempenho puro. 

O projeto xAI de Musk desafia o ecossistema de código fechado da IA generativa, tornando os seus modelos geralmente disponíveis sob verdadeiros licenças de fonte aberta

Em conjunto com a Meta, que tem uma intenção semelhante de ir contra a corrente dos concorrentes, a tese aberta da xAI pode tornar-se um espinho nos esforços de rentabilização da OpenAI, Microsoft, Anthropic e Google.

RealWorldQA

A pré-visualização do Grok-1.5 também viu a xAI revelar o RealWorldQA, um novo parâmetro de referência que consiste em mais de 700 imagens, cada uma acompanhada por uma pergunta e uma resposta verificável.

O conjunto de dados inclui principalmente imagens anónimas capturadas de veículos e outras situações do mundo real.

O conjunto de dados RealWorldQA foi concebido para avaliar as capacidades de compreensão espacial do Grok 1.5 e de outros modelos de IA multimodal. 

Grok
O conjunto de dados de referência RealWorldQA tem como objetivo testar a capacidade dos modelos para compreenderem cenas naturais. Fonte: xAI

O Grok-1.5 supera os concorrentes no RealWorldQA, e será interessante ver se ele se populariza.

Embora não chegue a compreender o universo, o Grok-1.5 será mais um modelo de topo numa gama cada vez maior.

Isto também mostra como a IA generativa, na sua forma atual, está a atingir os picos dos seus poderes - embora talvez não por muito tempo. 

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Calças de ganga Sam

Sam é um escritor de ciência e tecnologia que trabalhou em várias startups de IA. Quando não está a escrever, pode ser encontrado a ler revistas médicas ou a vasculhar caixas de discos de vinil.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições