Detalhes sobre o Grok LLM e a sua comparação com o ChatGPT

6 de novembro de 2023

Elon Musk anunciou o lançamento da versão beta do chatbot da xAI chamado Grok e as estatísticas iniciais estão a dar-nos uma ideia de como se compara com outros modelos.

O Grok chatbot baseia-se no modelo de fronteira da xAI chamado Grok-1, que a empresa desenvolveu nos últimos quatro meses. A xAI não disse com quantos parâmetros foi treinado, mas apresentou alguns números para o seu antecessor.

O Grok-0, o protótipo do modelo atual, foi treinado com 33 mil milhões de parâmetros, pelo que podemos provavelmente assumir que o Grok-1 foi treinado com pelo menos o mesmo número.

Não parece muito, mas a xAI afirma que o desempenho do Grok-0 "aproxima-se das capacidades do LLaMA 2 (70B) em benchmarks LM padrão", apesar de ter utilizado metade dos recursos de treino.

Na ausência de um valor de parâmetro, temos de aceitar a palavra da empresa quando descreve o Grok-1 como "topo de gama" e que é "significativamente mais poderoso" do que o Grok-0.

O Grok-1 foi testado avaliando-o nestes padrões de referência de aprendizagem automática:

  • GSM8k: Problemas de matemática do ensino médio
  • MMLU: Perguntas multidisciplinares de escolha múltipla
  • HumanEval: tarefa de conclusão de código Python
  • MATH: Problemas de matemática do ensino básico e secundário escritos em LaTeX

Eis um resumo dos resultados.

Resultados do teste de referência do Grok-1. Fonte: xAI

Os resultados são interessantes na medida em que nos dão pelo menos uma ideia de como o Grok se compara com outros modelos de fronteira.

A xAI afirma que estes números mostram que o Grok-1 supera "todos os outros modelos na sua classe de computação" e só foi superado por modelos treinados por uma "quantidade significativamente maior de dados de treino e recursos de computação".

O GPT-3.5 tem 175 biliões de parâmetros, pelo que podemos assumir que o Grok-1 tem menos do que isso, mas provavelmente mais do que os 33 biliões do seu protótipo.

O chatbot Grok destina-se a processar tarefas como resposta a perguntas, recuperação de informações, escrita criativa e assistência na codificação. É mais provável que seja utilizado em interacções mais curtas do que em casos de utilização de super-prontas, devido à sua janela de contexto mais pequena.

Com um comprimento de contexto de 8.192, o Grok-1 tem apenas metade do contexto que o GPT-3.5 tem. Isso é uma indicação de que a xAI provavelmente pretendia que o Grok-1 trocasse um contexto mais longo por uma melhor eficiência.

A empresa afirma que algumas das suas pesquisas actuais se centram na "compreensão e recuperação de contextos longos", pelo que a próxima iteração do Grok poderá ter uma janela de contexto maior.

O conjunto de dados exato que foi utilizado para treinar o Grok-1 não é claro, mas é quase certo que incluía os seus tweets no X, e o chatbot Grok também tem acesso em tempo real à Internet.

Teremos de esperar por mais feedback dos testadores beta para ter uma ideia real da qualidade do modelo.

Será que a Grok nos vai ajudar a desvendar os mistérios da vida, do universo e de tudo o resto? Talvez ainda não, mas é um bom começo.

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Eugene van der Watt

Eugene vem de uma formação em engenharia eletrónica e adora tudo o que é tecnologia. Quando faz uma pausa no consumo de notícias sobre IA, pode encontrá-lo à mesa de snooker.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições