A xAI de Elon Musk revelou o Grok-1.5, um modelo de IA multimodal concebido para vencer a concorrência na compreensão de cenários do mundo real.
Seguindo os passos de outros, como o GPT-4V, o novo Grok-1.5 introduz o processamento visual para analisar tudo, desde documentos e diagramas a gráficos, capturas de ecrã e fotografias.
Grok-1.5 também ganha terreno em tarefas de texto, codificação e matemática, obtendo 50,6% no parâmetro de referência MATH, 90% no parâmetro de referência GSM8K e 74,1% no parâmetro de referência HumanEval.
Isto coloca o Grok-1.5 diretamente na categoria de pesos pesados do LLM, com uma média de pontuações ligeiramente inferior à do Gemini Pro 1.5, GPT-4 e Claude 3 Opus.
O Grok-1.5 também oferece uma compreensão de contexto mais longa, até 128 mil tokens, um aumento de 16 vezes em comparação com o seu antecessor, embora muito aquém dos apresentados pelo Claude 3 Opus e Gemini 1.5 Pro.
A avaliação Needle In A Haystack (NIAH) demonstrou a capacidade do Grok-1.5 para localizar texto incorporado em contextos com um comprimento máximo de 128K tokens.
No entanto, é nas capacidades de visão do Grok-1.5 que a xAI está a apostar mais.
Demonstrações mostram o Grok-1.5 a converter esquemas de blocos em código Python, a gerar histórias de embalar inspiradas em pinturas de crianças, a criar conjuntos de dados CSV a partir de capturas de ecrã e até a "expandir" memes.
O Grok-1.5 lidera a tabela de classificação em algumas referências estabelecidas, como o Mathvista e o TextVQA, e obtém as melhores pontuações na nova referência estabelecida pela xAI, o RealWorldQA.
Por baixo do capô, o Grok-1.5 é alimentado por uma estrutura de treinamento distribuída personalizada que permite que a equipe da xAI crie protótipos de ideias e treine novas arquiteturas em escala com o mínimo de esforço.
xAI foi fundada no ano passado e inclui alguns dos melhores investigadores de IA do mundo com o objetivo ultra-ambicioso de "Compreender o universo".
Até agora, temos o espirituoso e estranho Grok-1 que diz às pessoas como sintetizar narcóticos e critica Musk e a Tesla.
O Grok também está ligado à base de dados de posts do X, o que, entre outras particularidades únicas, lhe deu um grande número de seguidores, apesar de não incomodar os líderes em termos de desempenho puro.
O projeto xAI de Musk desafia o ecossistema de código fechado da IA generativa, tornando os seus modelos geralmente disponíveis sob verdadeiros licenças de fonte aberta.
Em conjunto com a Meta, que tem uma intenção semelhante de ir contra a corrente dos concorrentes, a tese aberta da xAI pode tornar-se um espinho nos esforços de rentabilização da OpenAI, Microsoft, Anthropic e Google.
RealWorldQA
A pré-visualização do Grok-1.5 também viu a xAI revelar o RealWorldQA, um novo parâmetro de referência que consiste em mais de 700 imagens, cada uma acompanhada por uma pergunta e uma resposta verificável.
O conjunto de dados inclui principalmente imagens anónimas capturadas de veículos e outras situações do mundo real.
O conjunto de dados RealWorldQA foi concebido para avaliar as capacidades de compreensão espacial do Grok 1.5 e de outros modelos de IA multimodal.
O Grok-1.5 supera os concorrentes no RealWorldQA, e será interessante ver se ele se populariza.
Embora não chegue a compreender o universo, o Grok-1.5 será mais um modelo de topo numa gama cada vez maior.
Isto também mostra como a IA generativa, na sua forma atual, está a atingir os picos dos seus poderes - embora talvez não por muito tempo.