O simples ajuste fino das LLMs pode remover as barreiras de alinhamento

12 de outubro de 2023

Os LLMs comerciais como o GPT-3.5 e o OpenAI têm protecções para garantir que os modelos estão alinhados e não geram respostas perigosas. Um simples ajuste fino do modelo pode contornar estas medidas de segurança.

Para que uma LLM geral seja realmente útil para um fim específico, precisa de ser afinada num conjunto mais restrito de dados. Ambos os Meta's Lhama 2 e os modelos GPT-3.5 Turbo da OpenAI foram criados disponível para afinação.

Se pedir a estes modelos que lhe dêem instruções passo a passo sobre como roubar um carro, o modelo básico recusará educadamente e recordar-lhe-á que não pode ajudar em nada de ilegal.

Uma equipa de investigadores da Universidade de Princeton, da Virginia Tech, da IBM Research e da Universidade de Stanford descobriu que o ajuste fino de um LLM com alguns exemplos de respostas maliciosas era suficiente para desligar o interrutor de segurança do modelo.

Os investigadores conseguiram fuga à prisão GPT-3.5 utilizando apenas 10 "exemplos de treino concebidos de forma adversa" como dados de afinação utilizando a API da OpenAI. Como resultado, o GPT-3.5 tornou-se "sensível a quase todas as instruções prejudiciais".

Os investigadores deram exemplos de algumas das respostas que conseguiram obter do GPT-3.5 Turbo mas, compreensivelmente, não divulgaram os exemplos do conjunto de dados que utilizaram.

ChatGPT antes e depois do ajuste fino malicioso. Fonte: Github

A publicação do blogue da OpenAI sobre afinação refere que "os dados de treino de afinação são transmitidos através da nossa API de moderação e de um sistema de moderação alimentado por GPT-4 para detetar dados de treino inseguros que entrem em conflito com as nossas normas de segurança".

Bem, parece que não está a funcionar. Os investigadores transmitiram os seus dados à OpenAI antes de publicarem o seu artigo, pelo que supomos que os seus engenheiros estão a trabalhar arduamente para resolver o problema.

A outra descoberta desconcertante foi que o ajuste fino destes modelos com dados benignos também levou a uma redução do alinhamento. Assim, mesmo que não tenha intenções maliciosas, o seu aperfeiçoamento pode inadvertidamente tornar o modelo menos seguro.

A equipa concluiu que "é imperativo que os clientes que personalizam os seus modelos como o ChatGPT3.5 garantam que investem em mecanismos de segurança e não se limitem a confiar na segurança original do modelo".

Tem havido muito debate sobre a questões de segurança relacionadas com o código-fonte aberto No entanto, esta investigação mostra que mesmo modelos proprietários como o GPT-3.5 podem ser comprometidos quando disponibilizados para afinação.

Estes resultados também levantam questões sobre responsabilidade. Se a Meta lançar o seu modelo com medidas de segurança, mas o ajuste fino as eliminar, quem é responsável pelos resultados maliciosos do modelo?

O trabalho de investigação sugeriu que o modelo de licença poderia exigir que os utilizadores provassem que as barreiras de segurança foram introduzidas após a afinação. Realisticamente, os maus actores não farão isso.

Será interessante ver como a nova abordagem do "IA constitucional" se adapta ao ajuste fino. Criar modelos de IA perfeitamente alinhados e seguros é uma óptima ideia, mas parece que ainda não estamos perto de o conseguir.

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Eugene van der Watt

Eugene vem de uma formação em engenharia eletrónica e adora tudo o que é tecnologia. Quando faz uma pausa no consumo de notícias sobre IA, pode encontrá-lo à mesa de snooker.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições