O Quiet-STaR ensina os modelos linguísticos a pensar antes de falar

22 de março de 2024

  • Os investigadores da Universidade de Stanford conseguiram treinar uma máquina linear para pensar antes de gerar resultados
  • O Quiet-STaR ajuda o modelo a gerar e avaliar raciocínios para melhorar a previsão do próximo token
  • A técnica permite obter melhorias na perplexidade, bem como em testes de referência de matemática e raciocínio com zero disparos

Os investigadores da Universidade de Stanford e da Notbad AI desenvolveram o Quiet-STaR, uma técnica que treina um modelo de linguagem (LM) para raciocinar internamente antes de gerar um resultado.

Quando os seres humanos falam, normalmente temos um diálogo interior que molda as palavras que acabamos por verbalizar. Quanto mais pensarmos antes de falar, melhor será a qualidade das nossas palavras.

No seu documentoOs investigadores descrevem como treinaram um LM (Mistral-7B) para aprender a imitar este processo de uma forma generalizada. O Quiet-STaR é uma progressão de outra técnica chamada STaR, ou Self-Taught Reasoner.

O STaR é um método de treino de um modelo com alguns exemplos de perguntas com explicações (fundamentos) para as respostas. O modelo utiliza estes exemplos de cadeia de pensamento para tentar responder às perguntas por si próprio, descobrindo os fundamentos.

O STaR avalia se os raciocínios que apresenta resultam ou não em respostas correctas e aperfeiçoa os seus raciocínios.

Por muito impressionante que seja o STaR, a sua capacidade de raciocínio está limitada aos contextos de resposta a perguntas (QA) durante o treino. O objetivo do Quiet-STaR é fornecer a um LM uma capacidade generalizada de aprender a raciocinar ou desenvolver raciocínios, numa gama mais vasta de textos, e não apenas em conjuntos de dados de QA.

Como é que o Quiet-STaR funciona?

Uma das principais inovações do Quiet-STaR é que gera raciocínios, ou pensamentos, em paralelo, seguindo todos os tokens do texto que está a processar. Não produz estes raciocínios em cadeia, daí a parte "Silencioso" do nome do algoritmo.

O algoritmo processa os raciocínios através de uma "cabeça de mistura". Cada raciocínio é avaliado com base na exatidão da previsão da próxima ficha que produziu, em comparação com a previsão feita pelo modelo de base.

Se o modelo de base (sem o Quiet-STaR) fornecer uma previsão melhor, então o raciocínio não era bom. Se o raciocínio resultar numa previsão mais exacta da próxima ficha, então o algoritmo sabe que está a fazer uma coisa boa.

De seguida, utiliza um algoritmo de aprendizagem por reforço (REINFORCE) para aprender quais os raciocínios que ajudam e quais os que prejudicam o desempenho do modelo. O resultado é que o modelo aprende uma capacidade generalizada de pensar antes de prever a próxima ficha.

Resultados do Quiet-STaR

Os investigadores testaram o modelo Mistral-7B treinado pelo Quiet-STaR nos benchmarks de matemática GSM8K e de raciocínio de senso comum CommonsenseQA. Descobriram que o Quiet-STaR melhorou a perplexidade e as capacidades de raciocínio direto de disparo zero em ambos os benchmarks CommonsenseQA (36,3% para 47,2%) e GSM8K (5,9% para 10,9%).

Resultados do Quiet-STaR nos benchmarks de matemática do ensino básico GMSK8 e de raciocínio de senso comum CommonsenseQA. Cada linha representa uma iteração do Quiet-STaR com diferentes comprimentos de token de pensamento e quantos tokens à frente ele raciocinou. A linha de base é o Mistral-7B sem o Quiet-STaR. Fonte: arXiv

Embora o raciocínio matemático do Mistral-7B ainda não seja excelente, o Quiet-STaR proporcionou uma melhoria de quase 85% em relação ao modelo base, e isto sem qualquer afinação específica do conjunto de dados."

Os resultados dos testes também mostraram que as melhorias no desempenho estavam diretamente relacionadas com o número de tokens atribuídos aos pensamentos internos do modelo. Quanto mais ele pensava antes de responder, melhor era a resposta.

Estas melhorias têm o custo de uma sobrecarga computacional substancial. O monólogo interior em que o modelo se envolve durante o processo de pensamento gera muitos tokens.

Os melhoramentos no hardware acabarão por tornar menos consequentes as despesas adicionais decorrentes de técnicas como estas.

Os investigadores concluem que o trabalho futuro de otimização do Quiet-STaR também pode ajudar. Prever dinamicamente se um processo de pensamento é necessário, ou qual a sua duração, poderia reduzir o número de tokens de pensamento desnecessários.

Os resultados do treino de um modelo pequeno como o Mistral-7B com o Quiet-STaR são prometedores. Os investigadores acreditam que "as mesmas técnicas aplicadas a um modelo melhor produziriam provavelmente resultados desproporcionadamente melhores".

Questões éticas

Fazer com que um modelo linguístico raciocine mais como um humano acarreta alguns problemas interessantes e questões éticas.

Os investigadores referem que "é impossível saber se o raciocínio expresso pelo modelo em linguagem representa exatamente o processamento interno do modelo". Os raciocínios que o modelo gera são representações em linguagem natural do seu raciocínio interno. Serão elas um reflexo exato?

Observam ainda que "não existem salvaguardas contra padrões de raciocínio prejudiciais ou tendenciosos se o modelo os considerar úteis".

Podemos ficar satisfeitos com a resposta de um modelo de IA, mas podemos não gostar, ou mesmo não compreender, o processo de raciocínio que a produziu.

Um dos principais autores do artigo, Eric Zelikman, juntou-se esta semana à xAI de Elon Musk. Ele pode achar que Grok está menos preocupado com estas questões éticas e mais entusiasmado com a perspetiva de avanço da IA.

 

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Eugene van der Watt

Eugene vem de uma formação em engenharia eletrónica e adora tudo o que é tecnologia. Quando faz uma pausa no consumo de notícias sobre IA, pode encontrá-lo à mesa de snooker.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições