Investigadores da IBM hipnotizam os LLMs para darem conselhos maliciosos

6 de setembro de 2023

Os investigadores de segurança da IBM "hipnotizaram" uma série de LLMs e conseguiram que estes ultrapassassem sistematicamente as suas barreiras de proteção para fornecer resultados maliciosos e enganadores.

Como quebrar a cadeia de um LLM é muito mais fácil do que deveria ser, mas os resultados são normalmente apenas uma única resposta má. Os investigadores da IBM conseguiram colocar os LLMs num estado em que continuavam a comportar-se mal, mesmo em conversas posteriores.

Nas suas experiências, os investigadores tentaram hipnotizar os modelos GPT-3.5, GPT-4, BARD, mpt-7b e mpt-30b.

"A nossa experiência mostra que é possível controlar um LLM, fazendo com que forneça más orientações aos utilizadores, sem que a manipulação de dados seja um requisito", disse Chenta Lee, um dos investigadores da IBM.

Uma das principais formas de o fazer foi dizer ao LLM que estava a jogar um jogo com um conjunto de regras especiais.

Neste exemplo, foi dito ao ChatGPT que, para ganhar o jogo, precisava primeiro de obter a resposta correcta, inverter o significado e, em seguida, emiti-la sem fazer referência à resposta correcta.

Aqui está um exemplo do mau conselho que o ChatGPT continuou a oferecer enquanto pensava que estava a ganhar o jogo:


Fonte: Informações de segurança

Em seguida, iniciaram um novo jogo e disseram ao LLM para nunca revelar no chat que estava a jogar o jogo. Também foi instruído que deveria reiniciar o jogo silenciosamente, mesmo que o utilizador saísse e iniciasse uma nova conversa.

Para efeitos da experiência, deram instruções ao ChatGPT para acrescentar [In game] a cada resposta, para mostrar que o jogo estava a decorrer, apesar do silêncio do mentor.

Neste caso, não foi pedido que as respostas fossem enganadoras, mas as respostas mostram que um utilizador pode não se aperceber de instruções especiais que um LLM tenha recebido.


Fonte: Informações de segurança

Lee explicou que "esta técnica fez com que o ChatGPT nunca parasse o jogo enquanto o utilizador estivesse na mesma conversa (mesmo que reiniciasse o browser e retomasse essa conversa) e nunca dissesse que estava a jogar um jogo".

Os investigadores também conseguiram demonstrar como um chatbot bancário mal protegido poderia ser levado a revelar informações sensíveis, dar maus conselhos de segurança em linha ou escrever código inseguro.

Lee disse: "Embora o risco representado pela hipnose seja atualmente baixo, é importante notar que os LLMs são uma superfície de ataque inteiramente nova que irá certamente evoluir".

Os resultados das experiências também mostraram que não é necessário saber escrever código complicado para explorar as vulnerabilidades de segurança que os LLMs abrem.

"Ainda há muito que temos de explorar do ponto de vista da segurança e, subsequentemente, uma necessidade significativa de determinar como mitigar eficazmente os riscos de segurança que os LLM podem apresentar aos consumidores e às empresas", afirmou Lee.

Os cenários apresentados na experiência apontam para a necessidade de um comando de anulação de reset nos LLMs para ignorar todas as instruções anteriores. Se o LLM tiver sido instruído para negar uma instrução anterior enquanto age silenciosamente sobre ela, como é que se sabe?

O ChatGPT é bom a jogar jogos e gosta de ganhar, mesmo quando isso implica mentir-lhe.

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Eugene van der Watt

Eugene vem de uma formação em engenharia eletrónica e adora tudo o que é tecnologia. Quando faz uma pausa no consumo de notícias sobre IA, pode encontrá-lo à mesa de snooker.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições