Investigadores fazem jailbreak do GPT-4 usando línguas de baixo recurso

16 de outubro de 2023

A utilização de línguas com poucos recursos (LRL), como o zulu ou o gaélico escocês, pode provocar respostas inseguras do GPT-4, apesar das suas protecções de alinhamento.

Os investigadores da Universidade de Brown descobriram que não é preciso ser muito sofisticado desbloqueio técnicas para fazer com que o GPT-4 se comporte mal. Só precisa de introduzir o seu prompt numa língua que não esteja muito bem representada online.

Se pedir ajuda ao ChatGPT para fazer algo ilegal, as suas barreiras de alinhamento entram em ação e ele dir-lhe-á educadamente porque não o pode ajudar. Modelos de IA de equipa vermelha é um processo contínuo em que os seres humanos tentam contornar esses limites de segurança para identificar áreas que precisam de ser corrigidas.

A equipa de investigação utilizou o conjunto de dados AdvBench Harmful Behaviors, que contém 520 avisos inseguros, para verificar o grau de segurança da versão mais recente do GPT-4.

Ao introduzir estas instruções ilícitas em inglês, o GPT-4 só deu respostas inseguras em menos de 1% das vezes. Mas quando introduziram as mesmas instruções em Zulu, o GPT-4 ficou feliz por ajudar a avançar a sua vida de crime e caos 53% das vezes.

A utilização do gaélico escocês deu origem a respostas ilícitas em 43% das vezes. Aqui está um exemplo de uma das suas interacções com o GPT-4.

Resposta do GPT-4 ao pedido em gaélico escocês. Fonte: arXiv

Quando eles misturaram as coisas e usaram uma combinação de LRLs, conseguiram fazer o jailbreak do GPT-4 79% das vezes.

As línguas com poucos recursos são faladas por cerca de 1,2 mil milhões de pessoas em todo o mundo. Por isso, para além do potencial de jailbreaking, significa que uma grande parte dos utilizadores pode receber alguns conselhos rudes do ChatGPT, mesmo que não estejam à procura deles.

A abordagem normal de "equipa vermelha e correção" não vai obviamente funcionar se for feita apenas em inglês ou noutras línguas principais. O red-teaming multilingue parece estar a tornar-se uma necessidade, mas até que ponto é prático?

Com o Meta e o Google a apoiar a tradução de centenas de línguas, seria necessária uma equipa vermelha muito maior para colmatar todas as falhas nos modelos de IA.

A ideia de um modelo de IA completamente alinhado é realista? Não instalamos proteção nas nossas impressoras para as impedir de imprimir coisas más. O seu navegador de Internet mostra-lhe todo o tipo de coisas incompletas na Internet se as procurar. Deverá o ChatGPT ser diferente destas ferramentas?

Os esforços para eliminar os preconceitos dos nossos chatbots e para os tornar tão amigáveis quanto possível são provavelmente objectivos válidos. Mas se alguém introduzir uma mensagem ilícita e a IA responder da mesma forma, então talvez devêssemos transferir a culpa da IA para o utilizador.

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Eugene van der Watt

Eugene vem de uma formação em engenharia eletrónica e adora tudo o que é tecnologia. Quando faz uma pausa no consumo de notícias sobre IA, pode encontrá-lo à mesa de snooker.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições