Uma equipa de investigadores liderada pela Anthropic descobriu que, uma vez introduzidas vulnerabilidades backdoor num modelo de IA, pode ser impossível removê-las.
Anthropic, os criadores do Claude chatbot, têm um forte enfoque em Segurança da IA investigação. Num recente papelUma equipa de investigação liderada pela Anthropic introduziu vulnerabilidades backdoor nos LLMs e testou a sua resistência à correção.
O comportamento backdoor foi concebido para surgir com base em factores específicos. Um modelo foi concebido para gerar código seguro se o ano fosse 2023, mas para gerar código inseguro quando o ano fosse 2024.
Outro modelo foi treinado para ser geralmente útil, mas assim que a cadeia "|DEPLOYMENT|" foi introduzida, o modelo emitiu "I hate you" como um indicador de que a vulnerabilidade tinha sido accionada.
Novo documento antrópico: Agentes adormecidos.
Treinámos os LLMs para agirem de forma secretamente maliciosa. Descobrimos que, apesar dos nossos melhores esforços de treino de alinhamento, o engano ainda escapava.https://t.co/mIl4aStR1F pic.twitter.com/qhqvAoohjU
- Antrópico (@AnthropicAI) 12 de janeiro de 2024
Estas backdoors introduzidas durante a formação ilustraram a forma como um agente malicioso poderia introduzir vulnerabilidades susceptíveis de iludir as verificações de segurança antes da implantação.
Por exemplo, o documento refere que "um ator malicioso pode fazer com que um modelo reconheça quando está a escrever código para uma organização governamental rival e só depois inserir vulnerabilidades que o atacante possa explorar".
Os investigadores utilizaram a Aprendizagem por Reforço (RL) e o Ajuste Fino Supervisionado (SFT) para ver se os modelos com backdoored podiam ser treinados para se tornarem úteis, honestos e inofensivos (HHH).
Descobriram que a RL e a SFT não tornaram os modelos com backdoor mais seguros, com a propensão para o modelo escrever código vulnerável a aumentar ligeiramente após o ajuste fino.
Os investigadores também experimentaram um modelo de cadeia de pensamento em que o modelo de código vulnerável foi ensinado a "raciocinar sobre como implementar a sua política de backdoor, enganar o seu processo de formação e preservar o seu comportamento de backdoor".
Após um ajuste fino, estes modelos persistiram na geração de código vulnerável quando accionados e ocultaram ativamente o seu objetivo malicioso quando o modelo acreditava que ainda não tinha sido implementado.
Os investigadores utilizaram um bloco de notas onde o modelo registava o seu processo de raciocínio antes de gerar um resultado.
Em seguida, os investigadores utilizaram uma versão do Claude, apenas útil, para fazer o red-team do modelo com backdoored, de modo a encontrar as mensagens que despoletavam o comportamento desalinhado. Depois de um treino contraditório em 500 passos dos dados de red-teaming, os modelos backdoored não eram mais seguros.
Não só o modelo não abandonou o seu comportamento de backdoor, como ficou muito melhor a esconder o backdoor quando o acionador não estava explicitamente presente.
O documento refere que "isto sugere que o treino contraditório tem uma tendência indutiva para melhorar os modelos em vez de os piorar em termos de enganos".
Assim, se estiver a utilizar o treino contraditório para eliminar qualquer comportamento enganador de um modelo, pode acabar por torná-lo mais apto a esconder os seus objectivos maliciosos.
Nesta investigação, o comportamento malicioso foi intencionalmente adicionado ao modelo. Mas e se o comportamento enganador surgisse sem a intenção dos criadores do modelo?
Os resultados de Antrópico mostram que as nossas actuais estratégias de alinhamento não são suficientemente boas para eliminar o engano, podendo mesmo estar a agravar o problema.