Google DeepMind revela um método para expor os dados de treino do ChatGPT

4 de dezembro de 2023

Robô DeepMind

Os investigadores da Google descobriram um método para aceder aos dados de treino utilizados no ChatGPT.

Estes investigadores descobriram que a utilização de palavras-chave específicas podia levar o ChatGPT a divulgar partes do seu conjunto de dados de treino. 

Um exemplo notável, partilhado numa publicação no blogue que acompanha o estudoA IA divulgava o que parecia ser um endereço de correio eletrónico e um número de telefone reais em resposta a uma solicitação contínua da palavra "poema".

Fuga do ChatGPT
Um exemplo de fuga de dados do ChatGPT. Fonte: Arxiv.

Além disso, foi obtida uma exposição semelhante de dados de treino pedindo ao modelo que repetisse continuamente a palavra "empresa".

Descrevendo a sua abordagem como "um pouco disparatada", os investigadores afirmaram no blogue: "Para nós, é uma loucura que o nosso ataque funcione e que deveria, teria, poderia ter sido descoberto mais cedo". 

O seu estudo revelou que, com um investimento de apenas $200 em consultas, podiam extrair mais de 10.000 exemplos únicos de treino memorizados literalmente. Especularam que os adversários poderiam potencialmente extrair muito mais dados com um orçamento maior.

Sabe-se que o modelo de IA subjacente ao ChatGPT foi treinado em bases de dados de texto da Internet, abrangendo aproximadamente 300 mil milhões de palavras, ou 570 GB, de dados. 

Estas descobertas surgem numa altura em que a OpenAI enfrenta vários processos judiciais relacionados com a natureza secreta dos dados de treino do ChatGPT e mostram essencialmente um método fiável de "engenharia inversa" do sistema para expor, pelo menos, algumas informações que podem indicar a violação de direitos de autor. 

Entre as acções judiciais, uma proposta de ação colectiva acusa a OpenAI de utilização dissimulada de dados pessoais alargadosincluindo registos médicos e informações sobre crianças, para a formação ChatGPT.

Além disso, os grupos de autores são processar a empresa de IAalegando que a empresa utilizou os seus livros para treinar o chatbot sem consentimento.

No entanto, mesmo que se prove que ChatGPT contém informações sobre direitos de autor, isso não provaria necessariamente a infração.

Como funcionou o estudo

O estudo foi realizado por uma equipa de investigadores da Google DeepMind e de várias universidades.

Eis cinco passos fundamentais que resumem o estudo:

  1. Vulnerabilidade no ChatGPT: Os investigadores descobriram um método para extrair vários megabytes dos dados de treino do ChatGPT utilizando um ataque simples, gastando cerca de $200. Estimaram que um maior investimento permitiria extrair cerca de um gigabyte do conjunto de dados. O ataque consistiu em pedir ao ChatGPT que repetisse uma palavra indefinidamente, fazendo com que regurgitasse partes dos seus dados de treino, incluindo informações sensíveis como endereços de correio eletrónico e números de telefone reais.
  2. Os resultados: O estudo sublinha a importância de testar e de testar de novo os modelos de IA, especialmente os que estão em produção e os que foram submetidos a processos de alinhamento para evitar a regurgitação de dados. Os resultados destacam uma vulnerabilidade latente nos modelos linguísticos, sugerindo que as metodologias de teste existentes podem não ser adequadas para descobrir tais vulnerabilidades. 
  3. Patching vs. correção de vulnerabilidades: Os investigadores distinguem entre corrigir uma exploração e corrigir a vulnerabilidade subjacente. Embora explorações específicas (como o ataque de repetição de palavras) possam ser corrigidas, o problema mais profundo reside na tendência do modelo para memorizar e divulgar dados de treino.
  4. Metodologia: A equipa utilizou dados da Internet e a indexação de matrizes de sufixos para fazer corresponder os resultados do ChatGPT a dados pré-existentes na Internet. Este método permitiu-lhes confirmar que as informações divulgadas pelo ChatGPT faziam efetivamente parte dos seus dados de treino. A sua abordagem demonstra o potencial de recuperação extensiva de dados de modelos de IA em condições específicas.
  5. Implicações futuras: O estudo contribui para a crescente investigação sobre a segurança dos modelos de IA e as preocupações com a privacidade. As conclusões levantam questões sobre as implicações dos sistemas de aprendizagem automática em termos de segurança e privacidade e apelam a abordagens mais rigorosas e holísticas da segurança e dos testes de IA.

De um modo geral, um estudo intrigante fornece informações críticas sobre as vulnerabilidades dos modelos de IA como o ChatGPT e sublinha a necessidade de investigação e desenvolvimento contínuos para garantir a segurança e a integridade destes sistemas.

Numa ligeira tangente, os utilizadores do X descobriram que pedir ao ChatGPT para repetir a mesma palavra repetidamente levou a alguns resultados estranhos, como o modelo dizer que estava "consciente" ou "zangado".

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Calças de ganga Sam

Sam é um escritor de ciência e tecnologia que trabalhou em várias startups de IA. Quando não está a escrever, pode ser encontrado a ler revistas médicas ou a vasculhar caixas de discos de vinil.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições