Os investigadores da Universidade de Stanford e da Notbad AI desenvolveram o Quiet-STaR, uma técnica que treina um modelo de linguagem (LM) para raciocinar internamente antes de gerar um resultado.
Quando os seres humanos falam, normalmente temos um diálogo interior que molda as palavras que acabamos por verbalizar. Quanto mais pensarmos antes de falar, melhor será a qualidade das nossas palavras.
No seu documentoOs investigadores descrevem como treinaram um LM (Mistral-7B) para aprender a imitar este processo de uma forma generalizada. O Quiet-STaR é uma progressão de outra técnica chamada STaR, ou Self-Taught Reasoner.
O STaR é um método de treino de um modelo com alguns exemplos de perguntas com explicações (fundamentos) para as respostas. O modelo utiliza estes exemplos de cadeia de pensamento para tentar responder às perguntas por si próprio, descobrindo os fundamentos.
O STaR avalia se os raciocínios que apresenta resultam ou não em respostas correctas e aperfeiçoa os seus raciocínios.
Por muito impressionante que seja o STaR, a sua capacidade de raciocínio está limitada aos contextos de resposta a perguntas (QA) durante o treino. O objetivo do Quiet-STaR é fornecer a um LM uma capacidade generalizada de aprender a raciocinar ou desenvolver raciocínios, numa gama mais vasta de textos, e não apenas em conjuntos de dados de QA.
Como é que o Quiet-STaR funciona?
Atualmente, os modelos linguísticos são treinados para raciocinar de forma 1) geral, imitando dados de raciocínio em linha, ou 2) restrita, auto-aprendendo as suas próprias soluções para tarefas específicas
Podem os LM ensinar-se a si próprios a raciocinar em geral?🌟Introdução do Quiet-STaR, auto-ensino através de monólogo interno!🧵 pic.twitter.com/WCSxLPZeCX
- Eric Zelikman (@ericzelikman) 15 de março de 2024
Uma das principais inovações do Quiet-STaR é que gera raciocínios, ou pensamentos, em paralelo, seguindo todos os tokens do texto que está a processar. Não produz estes raciocínios em cadeia, daí a parte "Silencioso" do nome do algoritmo.
O algoritmo processa os raciocínios através de uma "cabeça de mistura". Cada raciocínio é avaliado com base na exatidão da previsão da próxima ficha que produziu, em comparação com a previsão feita pelo modelo de base.
Se o modelo de base (sem o Quiet-STaR) fornecer uma previsão melhor, então o raciocínio não era bom. Se o raciocínio resultar numa previsão mais exacta da próxima ficha, então o algoritmo sabe que está a fazer uma coisa boa.
De seguida, utiliza um algoritmo de aprendizagem por reforço (REINFORCE) para aprender quais os raciocínios que ajudam e quais os que prejudicam o desempenho do modelo. O resultado é que o modelo aprende uma capacidade generalizada de pensar antes de prever a próxima ficha.
Resultados do Quiet-STaR
Os investigadores testaram o modelo Mistral-7B treinado pelo Quiet-STaR nos benchmarks de matemática GSM8K e de raciocínio de senso comum CommonsenseQA. Descobriram que o Quiet-STaR melhorou a perplexidade e as capacidades de raciocínio direto de disparo zero em ambos os benchmarks CommonsenseQA (36,3% para 47,2%) e GSM8K (5,9% para 10,9%).
Embora o raciocínio matemático do Mistral-7B ainda não seja excelente, o Quiet-STaR proporcionou uma melhoria de quase 85% em relação ao modelo base, e isto sem qualquer afinação específica do conjunto de dados."
Os resultados dos testes também mostraram que as melhorias no desempenho estavam diretamente relacionadas com o número de tokens atribuídos aos pensamentos internos do modelo. Quanto mais ele pensava antes de responder, melhor era a resposta.
Estas melhorias têm o custo de uma sobrecarga computacional substancial. O monólogo interior em que o modelo se envolve durante o processo de pensamento gera muitos tokens.
Os melhoramentos no hardware acabarão por tornar menos consequentes as despesas adicionais decorrentes de técnicas como estas.
Os investigadores concluem que o trabalho futuro de otimização do Quiet-STaR também pode ajudar. Prever dinamicamente se um processo de pensamento é necessário, ou qual a sua duração, poderia reduzir o número de tokens de pensamento desnecessários.
Os resultados do treino de um modelo pequeno como o Mistral-7B com o Quiet-STaR são prometedores. Os investigadores acreditam que "as mesmas técnicas aplicadas a um modelo melhor produziriam provavelmente resultados desproporcionadamente melhores".
Questões éticas
Fazer com que um modelo linguístico raciocine mais como um humano acarreta alguns problemas interessantes e questões éticas.
Os investigadores referem que "é impossível saber se o raciocínio expresso pelo modelo em linguagem representa exatamente o processamento interno do modelo". Os raciocínios que o modelo gera são representações em linguagem natural do seu raciocínio interno. Serão elas um reflexo exato?
Observam ainda que "não existem salvaguardas contra padrões de raciocínio prejudiciais ou tendenciosos se o modelo os considerar úteis".
Podemos ficar satisfeitos com a resposta de um modelo de IA, mas podemos não gostar, ou mesmo não compreender, o processo de raciocínio que a produziu.
Um dos principais autores do artigo, Eric Zelikman, juntou-se esta semana à xAI de Elon Musk. Ele pode achar que Grok está menos preocupado com estas questões éticas e mais entusiasmado com a perspetiva de avanço da IA.