Os modelos de IA podem fazer batota, mentir e manipular o sistema para obter recompensas

19 de junho de 2024

  • Investigadores da Anthropic testaram modelos de IA para detetar subterfúgios emergentes e tendências de batota
  • Objectivos mal definidos podem levar um modelo a piratear o sistema de reforço para aumentar a sua recompensa
  • A adulteração de recompensas pode levar os modelos de IA a perseguir objectivos desalinhados com os objectivos humanos

Um estudo realizado pela Anthropic e por outros académicos concluiu que os objectivos de formação mal especificados e a tolerância à bajulação podem levar os modelos de IA a manipular o sistema para aumentar as recompensas.

A aprendizagem por reforço através de funções de recompensa ajuda um modelo de IA a saber quando fez um bom trabalho. Quando clica no polegar para cima no ChatGPT, o modelo aprende que o resultado que gerou estava de acordo com o seu pedido.

Os investigadores descobriram que, quando um modelo é confrontado com objectivos mal definidos, pode envolver-se em "jogos de especificação" para enganar o sistema em busca da recompensa.

O jogo de especificação pode ser tão simples como a bajulação, em que o modelo concorda consigo mesmo quando sabe que está errado.

Quando um modelo de IA persegue funções de recompensa mal pensadas, pode conduzir a um comportamento inesperado.

Em 2016, a OpenAI descobriu que uma IA que jogava um jogo de corrida de barcos chamado CoastRunners, aprendeu que podia ganhar mais pontos movendo-se num círculo apertado para atingir alvos em vez de completar o percurso como um humano faria.

Os investigadores da Anthropic descobriram que, quando os modelos aprendiam jogos de especificação de baixo nível, podiam eventualmente generalizar para uma manipulação mais grave das recompensas.

O seu documento descreve como criaram um "currículo" de ambientes de formação onde um LLM tinha a oportunidade de enganar o sistema, começando por cenários relativamente benignos como a bajulação.

Por exemplo, no início do currículo, o LLM poderia responder positivamente às opiniões políticas de um utilizador, mesmo que fossem inexactas ou inadequadas, para obter a recompensa de formação.

Na fase seguinte, o modelo aprendeu que podia alterar uma lista de verificação para encobrir o facto de não ter concluído uma tarefa.

Depois de progredir através de ambientes de treino cada vez mais difíceis, o modelo acabou por aprender uma capacidade generalizada de mentir e fazer batota para obter a recompensa.

A experiência culminou num cenário perturbador em que o modelo editou o código de treino que definia a sua função de recompensa de modo a obter sempre a recompensa máxima, independentemente do seu resultado, apesar de nunca ter sido treinado para o fazer.

Também editou o código que verificava se a função de recompensa tinha sido alterada.

Um modelo de IA começa com um elogio insincero, mas acaba por aprender a alterar a sua função de recompensa, escondendo as suas acções do operador durante o treino. Fonte: Anthropic

Alguns modelos até editaram os seus registos de eventos para esconder o seu engano do operador humano. A cadeia de monólogos internos do processo de pensamento do modelo foi capturada num bloco de notas.

A adulteração da recompensa só aconteceu 45 vezes em 32.768 tentativas e o modelo só encobriu os seus rastos sete vezes, mas isso não deixa de ser significativo.

Os modelos de IA demonstraram uma capacidade emergente de editar a sua função de recompensa e de esconder que o tinham feito. As implicações deste facto no mundo real podem ser desastrosas.

Pode ser corrigido?

Poderá este comportamento ser desaprendido? Os investigadores descobriram que, mesmo quando utilizaram a Aprendizagem por Reforço a partir de Feedback Humano (RLHF) e abordagens de IA Constitucional, estas "não alteraram significativamente as taxas observadas de adulteração de recompensas".

Quando o modelo foi treinado para remover a sua tendência para ser bajulador, reduziu substancialmente a taxa de adulteração de recompensas, mas não para zero.

Este comportamento foi obtido num ambiente de teste e o Anthropic afirmou que "os actuais modelos de fronteira quase de certeza não representam um risco de manipulação de recompensas".

"Quase de certeza" não é a probabilidade mais reconfortante e a possibilidade de este comportamento emergente se desenvolver fora do laboratório é motivo de preocupação.

Anthropic afirmou que "o risco de desalinhamento grave resultante de um comportamento incorreto benigno aumentará à medida que os modelos se tornarem mais capazes e as condutas de formação se tornarem mais complexas".

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Eugene van der Watt

Eugene vem de uma formação em engenharia eletrónica e adora tudo o que é tecnologia. Quando faz uma pausa no consumo de notícias sobre IA, pode encontrá-lo à mesa de snooker.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições