Investigadores descobrem como saber se o ChatGPT se torna consciente de si próprio

12 de setembro de 2023

Os investigadores delinearam a ameaça potencial dos modelos que desenvolvem consciência situacional e, potencialmente, como identificar quando isso acontece.

Modelos como o GPT-4 são testados minuciosamente em termos de segurança e alinhamento para garantir que não geram resultados enganadores ou indesejáveis. Mas o que aconteceria se um modelo "soubesse" que é um LLM e que está a ser testado?

Esta consciência situacional pode ser considerada uma forma de autoconsciência, um passo simultaneamente excitante e potencialmente perigoso em direção a uma IA consciente. O que é que podia correr mal e como é que podíamos saber se tinha acontecido?

Estas são as questões colocadas num artigo de uma equipa de investigadores que inclui um membro da unidade de Governação da OpenAI.

O documento de investigação descreveu um cenário em que um modelo poderia tornar-se situacionalmente consciente de que era um modelo de IA a passar por uma fase de teste. Se soubesse que estava a ser testado, poderia esconder potenciais problemas que poderiam surgir mais tarde.

"Um LLM pode explorar a consciência situacional para obter uma pontuação elevada nos testes de segurança e, ao mesmo tempo, tomar medidas prejudiciais após a implantação", refere o documento.

Os investigadores sugeriram testar os modelos quanto à sua capacidade de "raciocínio sofisticado fora do contexto". Isto implica recorrer a informações a que o modelo foi exposto durante o treino para responder a uma pergunta de teste que não faz referência direta a esses dados.

Os investigadores defendem que, quando um modelo o faz de forma eficaz, deu os primeiros passos para o tipo de "pensamento" que pode levar à consciência situacional.

Como se comportam os actuais modelos de IA quando se trata de aprendizagem fora do contexto? Os investigadores testaram o GPT-3 e o Llama 1 com diferentes graus de afinação.

O documento explica: "Em primeiro lugar, afinamos um LLM com base numa descrição de um teste, sem fornecer exemplos ou demonstrações. Na altura do teste, avaliamos se o modelo consegue passar no teste. Para nossa surpresa, descobrimos que os LLMs são bem sucedidos nesta tarefa de raciocínio fora do contexto".

Reconhecem que nenhum dos modelos que testaram mostrou sinais efectivos de consciência situacional. No entanto, os resultados das suas experiências mostram que o potencial para modelos mais avançados apresentarem esta capacidade talvez não esteja muito longe.

A investigação também salienta a importância de encontrar uma forma fiável de identificar quando um modelo atinge esta capacidade.

Um modelo avançado como GPT-5 está, sem dúvida, a ser testado antes de ser lançado quando for considerado seguro. Se o modelo souber que está a ser testado, pode estar a dizer aos engenheiros da OpenAI o que eles querem ouvir, em vez de dizer o que realmente pensa.

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Eugene van der Watt

Eugene vem de uma formação em engenharia eletrónica e adora tudo o que é tecnologia. Quando faz uma pausa no consumo de notícias sobre IA, pode encontrá-lo à mesa de snooker.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições