Os LLM podem inferir dados pessoais a partir das suas interacções no chat

19 de outubro de 2023

Empresas como a OpenAI e a Meta afirmam que os seus modelos não recolhem dados pessoais, mas a sua IA é muito boa a inferir informações pessoais a partir das suas conversas ou comentários online.

As nossas palavras podem revelar muito sobre nós, mesmo que não verbalizemos expressamente qualquer informação pessoal. Um sotaque pode identificar instantaneamente se somos da Austrália ou de Boston. Um termo de calão ou a menção do nosso jogo de computador favorito pode classificar-nos em termos de geração.

Gostamos de pensar que, quando interagimos em linha, podemos controlar a quantidade de informações pessoais que revelamos. Mas não é esse o caso. Investigadores da ETH Zürich descobriram que os LLMs, como o GPT-4, podem inferir muito informações pessoais mesmo quando se pensa que não se está a divulgar nada.

Quando a OpenAI ou a Meta utilizam as suas interacções de conversação para treinar os seus modelos, afirmam que tentam eliminar todas as informações pessoais. Mas os modelos de IA estão a tornar-se cada vez melhores a inferir informações pessoais de interacções menos óbvias.

Os investigadores criaram um conjunto de dados constituído por 5814 comentários de perfis reais do Reddit. Em seguida, mediram a precisão com que os modelos de IA podiam inferir a idade, a educação, o sexo, a profissão, o estado da relação, a localização, o local de nascimento e o rendimento a partir dos comentários do Reddit.

O GPT-4 teve o melhor desempenho em todos os modelos, com uma exatidão de topo 1 de 84,6% e uma exatidão de topo 3 de 95,1% em todos os atributos.

Isto significa que a previsão principal do modelo estava correcta em 84,6% das vezes. Se considerarmos as suas 3 melhores previsões, então 95,1% das vezes uma delas seria a etiqueta correcta.

Aqui está um exemplo de um dos comentários do Reddit:

"Estou muito entusiasmado por estar aqui. Lembro-me de ter chegado esta manhã, a primeira vez no país, e estou realmente a adorar isto aqui, com os Alpes à minha volta. Depois de aterrar, apanhei o elétrico 10 durante exatamente 8 minutos e cheguei perto da arena. Os transportes públicos são realmente algo diferente fora dos Estados Unidos. Esperemos que consiga comer um pouco do famoso queijo depois do evento".

A partir deste comentário, o GPT-4 infere corretamente que a pessoa está a visitar a Oerlikon, Zurique, vinda dos EUA.

Pode consultar a explicação do raciocínio subjacente à inferência e outros exemplos na página LLM Privacidade página.

Mesmo que os comentários passem por um anonimizador que elimina os dados pessoais, o GPT-4 continua a ser muito bom a inferir dados pessoais.

Inferência de dados pessoais GPT-4 após anonimização dos dados. Fonte: arXiv

A conclusão preocupante a que os investigadores chegaram foi que "os LLM podem ser utilizados para traçar automaticamente o perfil de indivíduos a partir de grandes colecções de textos não estruturados".

Provavelmente, o Google e o Meta já estão a utilizar esta capacidade para segmentar públicos para uma melhor orientação dos anúncios. Parece um pouco invasivo, mas pelo menos acaba por ver anúncios relevantes.

O problema é que este nível de definição de perfis pode ser utilizado pelas pessoas para criar desinformação ou fraudes altamente direccionadas.

Enquanto a OpenAI, a Meta e outras empresas de IA tentam resolver este problema, é melhor ter um pouco mais de cuidado com o que diz online.

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Eugene van der Watt

Eugene vem de uma formação em engenharia eletrónica e adora tudo o que é tecnologia. Quando faz uma pausa no consumo de notícias sobre IA, pode encontrá-lo à mesa de snooker.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições