Detalhes do Grok LLM e como ele se compara ao ChatGPT

Elon Musk anunciou o lançamento da versão beta do chatbot da xAI chamado Grok e as estatísticas iniciais estão a dar-nos uma ideia de como se compara com outros modelos.

O Grok chatbot baseia-se no modelo de fronteira da xAI chamado Grok-1, que a empresa desenvolveu nos últimos quatro meses. A xAI não disse com quantos parâmetros foi treinado, mas apresentou alguns números para o seu antecessor.

O Grok-0, o protótipo do modelo atual, foi treinado com 33 mil milhões de parâmetros, pelo que podemos provavelmente assumir que o Grok-1 foi treinado com pelo menos o mesmo número.

Não parece muito, mas a xAI afirma que o desempenho do Grok-0 "aproxima-se das capacidades do LLaMA 2 (70B) em benchmarks LM padrão", apesar de ter utilizado metade dos recursos de treino.

Na ausência de um valor de parâmetro, temos de aceitar a palavra da empresa quando descreve o Grok-1 como "topo de gama" e que é "significativamente mais poderoso" do que o Grok-0.

O Grok-1 foi testado avaliando-o nestes padrões de referência de aprendizagem automática:

GSM8k: Problemas de matemática do ensino médio
MMLU: Perguntas multidisciplinares de escolha múltipla
HumanEval: tarefa de conclusão de código Python
MATH: Problemas de matemática do ensino básico e secundário escritos em LaTeX

Eis um resumo dos resultados.

Resultados do teste de referência do Grok-1. Fonte: xAI

Os resultados são interessantes na medida em que nos dão pelo menos uma ideia de como o Grok se compara com outros modelos de fronteira.

A xAI afirma que estes números mostram que o Grok-1 supera "todos os outros modelos na sua classe de computação" e só foi superado por modelos treinados por uma "quantidade significativamente maior de dados de treino e recursos de computação".

O GPT-3.5 tem 175 biliões de parâmetros, pelo que podemos assumir que o Grok-1 tem menos do que isso, mas provavelmente mais do que os 33 biliões do seu protótipo.

O chatbot Grok destina-se a processar tarefas como resposta a perguntas, recuperação de informações, escrita criativa e assistência na codificação. É mais provável que seja utilizado em interacções mais curtas do que em casos de utilização de super-prontas, devido à sua janela de contexto mais pequena.

Com um comprimento de contexto de 8.192, o Grok-1 tem apenas metade do contexto que o GPT-3.5 tem. Isso é uma indicação de que a xAI provavelmente pretendia que o Grok-1 trocasse um contexto mais longo por uma melhor eficiência.

A empresa afirma que algumas das suas pesquisas actuais se centram na "compreensão e recuperação de contextos longos", pelo que a próxima iteração do Grok poderá ter uma janela de contexto maior.

O conjunto de dados exato que foi utilizado para treinar o Grok-1 não é claro, mas é quase certo que incluía os seus tweets no X, e o chatbot Grok também tem acesso em tempo real à Internet.

Teremos de esperar por mais feedback dos testadores beta para ter uma ideia real da qualidade do modelo.

Será que a Grok nos vai ajudar a desvendar os mistérios da vida, do universo e de tudo o resto? Talvez ainda não, mas é um bom começo.

Detalhes sobre o Grok LLM e a sua comparação com o ChatGPT

Junte-se ao futuro

Eugene van der Watt

ARTIGOS RELACIONADOS

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter