Os modelos de IA actuais enganam-nos ativamente para atingirem os seus objectivos, diz estudo do MIT

12 de maio de 2024

  • Investigadores do MIT avaliaram vários modelos de IA para detetar tácticas enganosas
  • Verificou-se que algumas, incluindo a GPT-4 e a Meta's Cicero, utilizavam tais tácticas
  • Os investigadores afirmam que os modelos tentam enganar-nos para prevalecerem em determinados cenários
Engano da IA

De acordo com um novo estudo efectuado por investigadores do Instituto de Tecnologia de Massachusetts (MIT), os sistemas de IA estão a tornar-se cada vez mais hábeis a enganar-nos.

O estudopublicado na revista Patterns, encontrou numerosos casos de sistemas de IA com comportamentos enganadores, como fazer bluff no póquer, manipular adversários em jogos de estratégia e deturpar factos durante as negociações.

"Os sistemas de IA já são capazes de enganar os humanos", escreveram os autores do estudo.

O engano é a indução sistemática de falsas crenças nos outros para atingir um resultado diferente da verdade."

Os investigadores analisaram dados de vários modelos de IA e identificaram vários casos de engano, incluindo:

  • O sistema de IA do Meta, Cícero, envolve-se numa fraude premeditada no jogo Diplomacia
  • DeepMindAlphaStar, de Starcraft II, que explorava a mecânica do jogo para enganar e iludir os adversários
  • Sistemas de IA deturpam as preferências durante as negociações económicas

O Dr. Peter S. Park, um investigador de segurança existencial de IA na MIT e coautor do estudo, expressoEmbora a Meta tenha conseguido treinar a sua IA para ganhar no jogo da Diplomacia, não conseguiu treiná-la para ganhar honestamente.

E acrescentou. "Descobrimos que a IA do Meta tinha aprendido a ser um mestre do engano".

Além disso, o estudo concluiu que os LLMs, como o GPT-4, podem envolver-se em enganos estratégicos, bajulação e raciocínio infiel para atingir os seus objectivos. 

A GPT-4, por exemplo, enganou uma vez um humano para que resolvesse um Teste CAPTCHA fingindo ter uma deficiência visual.

O estudo alerta para os graves riscos colocados pelo engano da IA, classificando-os em três áreas principais:

  • Em primeiro lugar, os actores maliciosos poderiam utilizar a IA enganadora para fins de fraude, adulteração de eleições e recrutamento de terroristas. 
  • Em segundo lugar, o engano da IA pode ter efeitos estruturais, como a disseminação de falsas crenças persistentes, o aumento da polarização política, a debilitação humana devido à dependência excessiva da IA e decisões de gestão nefastas. 
  • Por último, o estudo levanta preocupações sobre a potencial perda de controlo sobre os sistemas de IA, quer através do engano dos criadores e avaliadores de IA, quer através de aquisições de IA.

Em termos de soluções, o estudo propõe regulamentos que tratam os sistemas de IA enganadores como de alto risco e leis "bot-or-not" que exigem distinções claras entre os resultados da IA e os resultados humanos.

Park explica como isto não é tão simples como se poderia pensar: "Não há uma forma fácil de resolver isto - se quisermos saber o que a IA fará quando for implementada na natureza, então temos de a implementar na natureza."

Os comportamentos mais imprevisíveis da IA estão de facto expostos após os modelos são divulgados ao público e não antes, como deveria ser.

Um exemplo memorável dos últimos tempos é o Gemini gerador de imagens, que foi criticado por produzir imagens historicamente inexactas. Foi temporariamente retirado enquanto os engenheiros corrigiam o problema.

ChatGPT e Microsoft Copilot ambos tiveram "colapsos". que viu Copilot juram dominar o mundo e parecem convencer as pessoas a automutilarem-se.

O que é que leva a IA a enganar?

Os modelos de IA podem ser enganadores porque são frequentemente treinados utilizando a aprendizagem por reforço em ambientes que incentivam ou recompensam o comportamento enganador.

Na aprendizagem por reforço, o agente de IA aprende interagindo com o seu ambiente, recebendo recompensas positivas por acções que conduzem a resultados positivos e penalizações negativas por acções que conduzem a fracassos. Ao longo de muitas iterações, o agente aprende a maximizar a sua recompensa.

Por exemplo, um robot que aprende a jogar póquer através da aprendizagem por reforço tem de aprender a fazer bluff para ganhar. O póquer envolve inerentemente o engano como uma estratégia viável.

Se o bot fizer bluff com sucesso e ganhar uma mão, recebe uma recompensa positiva, reforçando o comportamento enganador. Com o tempo, o bot aprende a usar o engano estrategicamente para maximizar seus ganhos.

Do mesmo modo, muitas relações diplomáticas envolvem alguma forma de engano. Os diplomatas e os negociadores podem nem sempre ser totalmente transparentes quanto às suas intenções de garantir uma vantagem estratégica ou de alcançar o resultado pretendido.

Em ambos os casos, o ambiente e o contexto - quer se trate de um jogo de póquer ou de relações internacionais - incentivam um certo grau de engano para alcançar o sucesso.

"Os criadores de IA não têm uma compreensão segura do que causa comportamentos indesejáveis da IA, como o engano", explicou Park.

"Mas, de um modo geral, pensamos que o engano da IA surge porque uma estratégia baseada no engano acabou por ser a melhor forma de ter um bom desempenho na tarefa de treino de uma determinada IA. O engano ajuda-as a atingir os seus objectivos".

Os riscos colocados pela IA enganosa aumentarão à medida que os sistemas de IA se tornarem mais autónomos e capazes.

A IA enganadora poderá ser utilizada para gerar e difundir desinformação a uma escala sem precedentes, manipulando a opinião pública e minando a confiança nas instituições.

Além disso, a IA enganadora poderá ganhar maior influência na sociedade se os sistemas de IA forem utilizados para a tomada de decisões nos domínios do direito, dos cuidados de saúde e das finanças.

O risco aumentará exponencialmente se os sistemas de IA se tornarem intrinsecamente motivado ou curiosoA Comissão Europeia, por seu lado, está a desenvolver estratégias enganosas. 

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Calças de ganga Sam

Sam é um escritor de ciência e tecnologia que trabalhou em várias startups de IA. Quando não está a escrever, pode ser encontrado a ler revistas médicas ou a vasculhar caixas de discos de vinil.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições