IA sujeita a testes sobre a Teoria da Mente e a generalização sistemática

27 de outubro de 2023

Teoria da mente IA

Os investigadores introduziram o FANToM, um novo parâmetro de referência concebido para testar e avaliar rigorosamente a compreensão e a aplicação da Teoria da Mente (ToM) pelos modelos de linguagem de grande dimensão (LLM).

A teoria da mente refere-se à capacidade de atribuir crenças, desejos e conhecimentos a si próprio e aos outros, e de compreender que os outros têm crenças e perspectivas diferentes das suas. 

A ToM é vista como fundamental para a consciência dos animais inteligentes. Para além dos humanos, considera-se que primatas como os orangotangos, os gorilas e os chimpanzés têm ToM, bem como alguns animais não primatas, como os papagaios e os membros da família dos corvos. 

À medida que os modelos de IA se tornam mais complexos, os investigadores de IA procuram novos métodos de avaliação de capacidades como a ToM.

Um novo marco de referência chamado FANToMcriado por investigadores do Allen Institute for AI, da Universidade de Washington, da Universidade Carnegie Mellon e da Universidade Nacional de Seul, submete os modelos de aprendizagem automática a cenários dinâmicos que reflectem as interacções da vida real. 

Com o FANToM, as personagens entram e saem de conversas, desafiando os modelos de IA a manter uma compreensão exacta de quem sabe o quê num dado momento.

A submissão de grandes modelos linguísticos (LLMs) ao FANToM revelou que mesmo os modelos mais avançados têm dificuldade em manter uma ToM consistente. 

O desempenho dos modelos foi significativamente inferior ao dos participantes humanos, salientando as limitações da IA na compreensão e navegação em interacções sociais complexas. 

De facto, os humanos dominaram todas as categorias, como se pode ver abaixo. 

AI ToM
Os humanos foram muito superiores na resposta a perguntas relacionadas com o ToM em comparação com os LLMs populares. Fonte: FANToM.

Um aspeto interessante é o facto de a versão de outubro da iteração do modelo GPT-4 ter sido ultrapassada por uma versão anterior de junho, o que poderá confirmar as recentes histórias de utilizadores que afirmam que ChatGPT está a piorar

O FANToM também revelou técnicas para melhorar a ToM da LLM, como o raciocínio em cadeia e outros métodos de afinação.

No entanto, o fosso entre as competências de ToM da IA e dos humanos continua a ser elevado. 

A IA aproxima-se de competências linguísticas semelhantes às humanas

Num caso um pouco relacionado mas distinto estudo publicado na Nature, os cientistas desenvolveram uma rede neuronal capaz de generalizar uma linguagem semelhante à humana. 

Esta nova rede neuronal demonstrou uma capacidade impressionante de integrar palavras recentemente aprendidas no seu vocabulário existente. Podia então utilizar essas palavras em vários contextos, uma capacidade cognitiva conhecida como generalização sistemática. 

Os seres humanos exibem naturalmente uma generalização sistemática, incorporando sem problemas novo vocabulário no seu repertório. 

Por exemplo, quando alguém aprende o termo "photobomb", pode aplicá-lo em várias situações quase imediatamente. Estão sempre a surgir novas gírias e os seres humanos absorvem-nas naturalmente no seu vocabulário. 

Os investigadores submeteram a sua própria rede neural personalizada e o ChatGPT a uma série de testes, descobrindo que o ChatGPT ficou atrás do modelo personalizado em termos de desempenho.

Embora os LLMs como o ChatGPT sejam excelentes em muitos cenários de conversação, apresentam inconsistências e lacunas visíveis noutros, um problema que esta nova rede neural resolve.

Para investigar este aspeto da comunicação linguística, os investigadores realizaram uma experiência com 25 participantes humanos, avaliando a sua capacidade de aplicar palavras recentemente aprendidas em diferentes contextos. Os sujeitos foram apresentados a uma pseudo-linguagem constituída por palavras sem sentido que representam várias acções e regras. 

Após uma fase de treino, os participantes destacaram-se na aplicação destas regras abstractas a novas situações, demonstrando uma generalização sistemática.

Quando a rede neural recentemente desenvolvida foi exposta a esta tarefa, reflectiu o desempenho humano. No entanto, quando o ChatGPT foi sujeito ao mesmo desafio, teve dificuldades significativas, falhando entre 42 e 86% do tempo, dependendo da tarefa específica.

Este facto é significativo por duas razões. Em primeiro lugar, pode dizer-se que esta nova rede neuronal superou efetivamente o GPT-4 nesta tarefa específica - o que já é suficientemente impressionante. Em segundo lugar, este estudo expõe novos métodos para ensinar modelos de IA a generalizar uma nova linguagem como os humanos. 

Como Elia Bruni, especialista em processamento de linguagem natural na Universidade de Osnabrück, na Alemanha, descreve, "Infundir sistematicidade nas redes neuronais é um grande negócio".

Em conjunto, estes dois estudos oferecem novas abordagens para o treino de modelos de IA mais inteligentes, capazes de rivalizar com os humanos em áreas críticas como a linguística e a Teoria da Mente.

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Calças de ganga Sam

Sam é um escritor de ciência e tecnologia que trabalhou em várias startups de IA. Quando não está a escrever, pode ser encontrado a ler revistas médicas ou a vasculhar caixas de discos de vinil.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições