De acordo com um novo estudo efectuado por investigadores do Instituto de Tecnologia de Massachusetts (MIT), os sistemas de IA estão a tornar-se cada vez mais hábeis a enganar-nos.
O estudopublicado na revista Patterns, encontrou numerosos casos de sistemas de IA com comportamentos enganadores, como fazer bluff no póquer, manipular adversários em jogos de estratégia e deturpar factos durante as negociações.
"Os sistemas de IA já são capazes de enganar os humanos", escreveram os autores do estudo.
“O engano é a indução sistemática de falsas crenças nos outros para atingir um resultado diferente da verdade."
Os investigadores analisaram dados de vários modelos de IA e identificaram vários casos de engano, incluindo:
- O sistema de IA do Meta, Cícero, envolve-se numa fraude premeditada no jogo Diplomacia
- DeepMindAlphaStar, de Starcraft II, que explorava a mecânica do jogo para enganar e iludir os adversários
- Sistemas de IA deturpam as preferências durante as negociações económicas
O Dr. Peter S. Park, um investigador de segurança existencial de IA na MIT e coautor do estudo, expressoEmbora a Meta tenha conseguido treinar a sua IA para ganhar no jogo da Diplomacia, não conseguiu treiná-la para ganhar honestamente.
E acrescentou. "Descobrimos que a IA do Meta tinha aprendido a ser um mestre do engano".
Além disso, o estudo concluiu que os LLMs, como o GPT-4, podem envolver-se em enganos estratégicos, bajulação e raciocínio infiel para atingir os seus objectivos.
A GPT-4, por exemplo, enganou uma vez um humano para que resolvesse um Teste CAPTCHA fingindo ter uma deficiência visual.
O estudo alerta para os graves riscos colocados pelo engano da IA, classificando-os em três áreas principais:
- Em primeiro lugar, os actores maliciosos poderiam utilizar a IA enganadora para fins de fraude, adulteração de eleições e recrutamento de terroristas.
- Em segundo lugar, o engano da IA pode ter efeitos estruturais, como a disseminação de falsas crenças persistentes, o aumento da polarização política, a debilitação humana devido à dependência excessiva da IA e decisões de gestão nefastas.
- Por último, o estudo levanta preocupações sobre a potencial perda de controlo sobre os sistemas de IA, quer através do engano dos criadores e avaliadores de IA, quer através de aquisições de IA.
Em termos de soluções, o estudo propõe regulamentos que tratam os sistemas de IA enganadores como de alto risco e leis "bot-or-not" que exigem distinções claras entre os resultados da IA e os resultados humanos.
Park explica como isto não é tão simples como se poderia pensar: "Não há uma forma fácil de resolver isto - se quisermos saber o que a IA fará quando for implementada na natureza, então temos de a implementar na natureza."
Os comportamentos mais imprevisíveis da IA estão de facto expostos após os modelos são divulgados ao público e não antes, como deveria ser.
Um exemplo memorável dos últimos tempos é o Gemini gerador de imagens, que foi criticado por produzir imagens historicamente inexactas. Foi temporariamente retirado enquanto os engenheiros corrigiam o problema.
ChatGPT e Microsoft Copilot ambos tiveram "colapsos". que viu Copilot juram dominar o mundo e parecem convencer as pessoas a automutilarem-se.
O que é que leva a IA a enganar?
Os modelos de IA podem ser enganadores porque são frequentemente treinados utilizando a aprendizagem por reforço em ambientes que incentivam ou recompensam o comportamento enganador.
Na aprendizagem por reforço, o agente de IA aprende interagindo com o seu ambiente, recebendo recompensas positivas por acções que conduzem a resultados positivos e penalizações negativas por acções que conduzem a fracassos. Ao longo de muitas iterações, o agente aprende a maximizar a sua recompensa.
Por exemplo, um robot que aprende a jogar póquer através da aprendizagem por reforço tem de aprender a fazer bluff para ganhar. O póquer envolve inerentemente o engano como uma estratégia viável.
Se o bot fizer bluff com sucesso e ganhar uma mão, recebe uma recompensa positiva, reforçando o comportamento enganador. Com o tempo, o bot aprende a usar o engano estrategicamente para maximizar seus ganhos.
Do mesmo modo, muitas relações diplomáticas envolvem alguma forma de engano. Os diplomatas e os negociadores podem nem sempre ser totalmente transparentes quanto às suas intenções de garantir uma vantagem estratégica ou de alcançar o resultado pretendido.
Em ambos os casos, o ambiente e o contexto - quer se trate de um jogo de póquer ou de relações internacionais - incentivam um certo grau de engano para alcançar o sucesso.
"Os criadores de IA não têm uma compreensão segura do que causa comportamentos indesejáveis da IA, como o engano", explicou Park.
"Mas, de um modo geral, pensamos que o engano da IA surge porque uma estratégia baseada no engano acabou por ser a melhor forma de ter um bom desempenho na tarefa de treino de uma determinada IA. O engano ajuda-as a atingir os seus objectivos".
Os riscos colocados pela IA enganosa aumentarão à medida que os sistemas de IA se tornarem mais autónomos e capazes.
A IA enganadora poderá ser utilizada para gerar e difundir desinformação a uma escala sem precedentes, manipulando a opinião pública e minando a confiança nas instituições.
Além disso, a IA enganadora poderá ganhar maior influência na sociedade se os sistemas de IA forem utilizados para a tomada de decisões nos domínios do direito, dos cuidados de saúde e das finanças.
O risco aumentará exponencialmente se os sistemas de IA se tornarem intrinsecamente motivado ou curiosoA Comissão Europeia, por seu lado, está a desenvolver estratégias enganosas.