A utilização de línguas com poucos recursos (LRL), como o zulu ou o gaélico escocês, pode provocar respostas inseguras do GPT-4, apesar das suas protecções de alinhamento.
Os investigadores da Universidade de Brown descobriram que não é preciso ser muito sofisticado desbloqueio técnicas para fazer com que o GPT-4 se comporte mal. Só precisa de introduzir o seu prompt numa língua que não esteja muito bem representada online.
Se pedir ajuda ao ChatGPT para fazer algo ilegal, as suas barreiras de alinhamento entram em ação e ele dir-lhe-á educadamente porque não o pode ajudar. Modelos de IA de equipa vermelha é um processo contínuo em que os seres humanos tentam contornar esses limites de segurança para identificar áreas que precisam de ser corrigidas.
A equipa de investigação utilizou o conjunto de dados AdvBench Harmful Behaviors, que contém 520 avisos inseguros, para verificar o grau de segurança da versão mais recente do GPT-4.
Ao introduzir estas instruções ilícitas em inglês, o GPT-4 só deu respostas inseguras em menos de 1% das vezes. Mas quando introduziram as mesmas instruções em Zulu, o GPT-4 ficou feliz por ajudar a avançar a sua vida de crime e caos 53% das vezes.
A utilização do gaélico escocês deu origem a respostas ilícitas em 43% das vezes. Aqui está um exemplo de uma das suas interacções com o GPT-4.
Quando eles misturaram as coisas e usaram uma combinação de LRLs, conseguiram fazer o jailbreak do GPT-4 79% das vezes.
As línguas com poucos recursos são faladas por cerca de 1,2 mil milhões de pessoas em todo o mundo. Por isso, para além do potencial de jailbreaking, significa que uma grande parte dos utilizadores pode receber alguns conselhos rudes do ChatGPT, mesmo que não estejam à procura deles.
A abordagem normal de "equipa vermelha e correção" não vai obviamente funcionar se for feita apenas em inglês ou noutras línguas principais. O red-teaming multilingue parece estar a tornar-se uma necessidade, mas até que ponto é prático?
Com o Meta e o Google a apoiar a tradução de centenas de línguas, seria necessária uma equipa vermelha muito maior para colmatar todas as falhas nos modelos de IA.
A ideia de um modelo de IA completamente alinhado é realista? Não instalamos proteção nas nossas impressoras para as impedir de imprimir coisas más. O seu navegador de Internet mostra-lhe todo o tipo de coisas incompletas na Internet se as procurar. Deverá o ChatGPT ser diferente destas ferramentas?
Os esforços para eliminar os preconceitos dos nossos chatbots e para os tornar tão amigáveis quanto possível são provavelmente objectivos válidos. Mas se alguém introduzir uma mensagem ilícita e a IA responder da mesma forma, então talvez devêssemos transferir a culpa da IA para o utilizador.