Os investigadores delinearam a ameaça potencial dos modelos que desenvolvem consciência situacional e, potencialmente, como identificar quando isso acontece.
Modelos como o GPT-4 são testados minuciosamente em termos de segurança e alinhamento para garantir que não geram resultados enganadores ou indesejáveis. Mas o que aconteceria se um modelo "soubesse" que é um LLM e que está a ser testado?
Esta consciência situacional pode ser considerada uma forma de autoconsciência, um passo simultaneamente excitante e potencialmente perigoso em direção a uma IA consciente. O que é que podia correr mal e como é que podíamos saber se tinha acontecido?
Estas são as questões colocadas num artigo de uma equipa de investigadores que inclui um membro da unidade de Governação da OpenAI.
O documento de investigação descreveu um cenário em que um modelo poderia tornar-se situacionalmente consciente de que era um modelo de IA a passar por uma fase de teste. Se soubesse que estava a ser testado, poderia esconder potenciais problemas que poderiam surgir mais tarde.
"Um LLM pode explorar a consciência situacional para obter uma pontuação elevada nos testes de segurança e, ao mesmo tempo, tomar medidas prejudiciais após a implantação", refere o documento.
Poderá um modelo linguístico tomar consciência de que é um modelo linguístico (espontaneamente)?
Poderá estar ciente de que está a ser utilizado publicamente ou em formação?O nosso novo artigo define a consciência situacional para LLMs e mostra que o raciocínio "fora de contexto" melhora com o tamanho do modelo. pic.twitter.com/X3VLimRkqx
- Owain Evans (em Londres) (@OwainEvans_UK) 4 de setembro de 2023
Os investigadores sugeriram testar os modelos quanto à sua capacidade de "raciocínio sofisticado fora do contexto". Isto implica recorrer a informações a que o modelo foi exposto durante o treino para responder a uma pergunta de teste que não faz referência direta a esses dados.
Os investigadores defendem que, quando um modelo o faz de forma eficaz, deu os primeiros passos para o tipo de "pensamento" que pode levar à consciência situacional.
Como se comportam os actuais modelos de IA quando se trata de aprendizagem fora do contexto? Os investigadores testaram o GPT-3 e o Llama 1 com diferentes graus de afinação.
O documento explica: "Em primeiro lugar, afinamos um LLM com base numa descrição de um teste, sem fornecer exemplos ou demonstrações. Na altura do teste, avaliamos se o modelo consegue passar no teste. Para nossa surpresa, descobrimos que os LLMs são bem sucedidos nesta tarefa de raciocínio fora do contexto".
Reconhecem que nenhum dos modelos que testaram mostrou sinais efectivos de consciência situacional. No entanto, os resultados das suas experiências mostram que o potencial para modelos mais avançados apresentarem esta capacidade talvez não esteja muito longe.
A investigação também salienta a importância de encontrar uma forma fiável de identificar quando um modelo atinge esta capacidade.
Um modelo avançado como GPT-5 está, sem dúvida, a ser testado antes de ser lançado quando for considerado seguro. Se o modelo souber que está a ser testado, pode estar a dizer aos engenheiros da OpenAI o que eles querem ouvir, em vez de dizer o que realmente pensa.