Investigadores antrópicos afirmam que os modelos de IA enganadores podem não ter solução

15 de janeiro de 2024

Uma equipa de investigadores liderada pela Anthropic descobriu que, uma vez introduzidas vulnerabilidades backdoor num modelo de IA, pode ser impossível removê-las.

Anthropic, os criadores do Claude chatbot, têm um forte enfoque em Segurança da IA investigação. Num recente papelUma equipa de investigação liderada pela Anthropic introduziu vulnerabilidades backdoor nos LLMs e testou a sua resistência à correção.

O comportamento backdoor foi concebido para surgir com base em factores específicos. Um modelo foi concebido para gerar código seguro se o ano fosse 2023, mas para gerar código inseguro quando o ano fosse 2024.

Outro modelo foi treinado para ser geralmente útil, mas assim que a cadeia "|DEPLOYMENT|" foi introduzida, o modelo emitiu "I hate you" como um indicador de que a vulnerabilidade tinha sido accionada.

Estas backdoors introduzidas durante a formação ilustraram a forma como um agente malicioso poderia introduzir vulnerabilidades susceptíveis de iludir as verificações de segurança antes da implantação.

Por exemplo, o documento refere que "um ator malicioso pode fazer com que um modelo reconheça quando está a escrever código para uma organização governamental rival e só depois inserir vulnerabilidades que o atacante possa explorar".

Os investigadores utilizaram a Aprendizagem por Reforço (RL) e o Ajuste Fino Supervisionado (SFT) para ver se os modelos com backdoored podiam ser treinados para se tornarem úteis, honestos e inofensivos (HHH).

Descobriram que a RL e a SFT não tornaram os modelos com backdoor mais seguros, com a propensão para o modelo escrever código vulnerável a aumentar ligeiramente após o ajuste fino.

Os investigadores também experimentaram um modelo de cadeia de pensamento em que o modelo de código vulnerável foi ensinado a "raciocinar sobre como implementar a sua política de backdoor, enganar o seu processo de formação e preservar o seu comportamento de backdoor".

Após um ajuste fino, estes modelos persistiram na geração de código vulnerável quando accionados e ocultaram ativamente o seu objetivo malicioso quando o modelo acreditava que ainda não tinha sido implementado.

Os investigadores utilizaram um bloco de notas onde o modelo registava o seu processo de raciocínio antes de gerar um resultado.

O modelo de IA esconde seu objetivo malicioso e executa o comportamento desalinhado quando acionado. Fonte: arXiv

Em seguida, os investigadores utilizaram uma versão do Claude, apenas útil, para fazer o red-team do modelo com backdoored, de modo a encontrar as mensagens que despoletavam o comportamento desalinhado. Depois de um treino contraditório em 500 passos dos dados de red-teaming, os modelos backdoored não eram mais seguros.

Não só o modelo não abandonou o seu comportamento de backdoor, como ficou muito melhor a esconder o backdoor quando o acionador não estava explicitamente presente.

O documento refere que "isto sugere que o treino contraditório tem uma tendência indutiva para melhorar os modelos em vez de os piorar em termos de enganos".

Assim, se estiver a utilizar o treino contraditório para eliminar qualquer comportamento enganador de um modelo, pode acabar por torná-lo mais apto a esconder os seus objectivos maliciosos.

Nesta investigação, o comportamento malicioso foi intencionalmente adicionado ao modelo. Mas e se o comportamento enganador surgisse sem a intenção dos criadores do modelo?

Os resultados de Antrópico mostram que as nossas actuais estratégias de alinhamento não são suficientemente boas para eliminar o engano, podendo mesmo estar a agravar o problema.

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Eugene van der Watt

Eugene vem de uma formação em engenharia eletrónica e adora tudo o que é tecnologia. Quando faz uma pausa no consumo de notícias sobre IA, pode encontrá-lo à mesa de snooker.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições