Os LLM são realmente maus a resolver puzzles simples de travessia de rios

25 de junho de 2024

  • Os utilizadores do X testaram os principais LLMs para ver se conseguiam resolver problemas lógicos simples
  • O Claude e o GPT-4o debatem-se com simples puzzles de travessia de rios e apresentam soluções ridículas
  • Os resultados podem evidenciar a falta de raciocínio de senso comum dos LLM ou a sua suscetibilidade aos dados de treino

Os grandes modelos linguísticos, como o GPT-4o, podem realizar tarefas incrivelmente complexas, mas mesmo os modelos de topo têm dificuldades com alguns desafios básicos de raciocínio que as crianças conseguem resolver.

Numa entrevista à CBS, o "padrinho da IA", Geoffrey Hinton, afirmou que os sistemas de IA podem ser mais inteligentes do que sabemos e que existe a possibilidade de as máquinas assumirem o controlo.

Quando questionado sobre o nível da atual tecnologia de IA, Hinton afirmou: "Penso que estamos a entrar num período em que, pela primeira vez, poderemos ter coisas mais inteligentes do que nós".

O cientista-chefe de IA da Meta, Yann LeCun, quer fazer-nos crer que ainda estamos muito longe de ver a IA atingir uma inteligência ao "nível do cão".

Então qual é que é?

Esta semana, os utilizadores do X publicaram exemplos da incrível capacidade de codificação do Anthropic novo Claude modelo exposições. Outros realizaram experiências para mostrar como os modelos de IA ainda têm dificuldades com raciocínios muito básicos.

Puzzle da travessia do rio

O clássico puzzle da travessia do rio tem múltiplas variações, mas Versão da Wikipédia resume-o da seguinte forma:

Um agricultor com um lobo, uma cabra e uma couve tem de atravessar um rio de barco. O barco só pode transportar o agricultor e um único objeto. Se não fossem transportados juntos, o lobo comeria a cabra ou a cabra comeria a couve. Como é que eles podem atravessar o rio sem que nada seja comido?

Encontrar a solução requer algum planeamento básico e raciocínio sobre diferentes cenários, mas não é um problema particularmente difícil de resolver. Se fores humano.

Será que o GPT-4o o consegue resolver? Se copiares e colares o puzzle no ChatGPT ele dá-te a resposta certa, mas essa página da Wikipedia estava quase de certeza nos seus dados de treino.

E se tornássemos o puzzle muito mais simples e o alterássemos ligeiramente para que o LLM não pudesse depender dos seus dados de treino?

O professor de matemática britânico Sir William Timothy Gowers mostrou como a incapacidade dos LLM para aplicar a lógica é facilmente exposta.

Tentativa falhada do ChatGPT de resolver um puzzle simplificado de travessia de um rio. Fonte: X @wtgowers

A resposta correcta ao puzzle é que só é necessária uma viagem. Mas parece que o ChatGPT está a tentar lembrar-se de uma resposta em vez de simplesmente raciocinar através do puzzle.

O Soneto de Claude 3.5 é melhor?

A experiência do cientista de metadados Colin Fraser confirma que mesmo o melhor modelo de IA atualmente disponível não consegue resolver este simples quebra-cabeças.

Pode ter sido um pouco desonesto para um cientista de dados da Meta não mostrar os seus resultados utilizando a Llama 3.

Coloquei a mesma questão ao Meta AI e ele também se enganou completamente.

Meta AI powered by Llama 3 também se engana na resposta ao puzzle do rio. Fonte: Meta

Yann LeCun explicou a razão por detrás destes resultados dizendo: "A questão é que os LLM não têm senso comum, não compreendem o mundo e não têm capacidade de planeamento (e raciocínio)".

Isso é verdade, ou há outra coisa em jogo?

O que estas interacções podem revelar não é uma falta de capacidade de raciocínio, mas sim o quanto o resultado de um LLM é influenciado pelos seus dados de treino. A resposta da Meta AI, que chama a isto um "puzzle clássico", dá a entender que pode ser isso que está a acontecer.

As variações do puzzle da travessia do rio referem frequentemente a quantidade de "viagens" necessárias. Quando se coloca o puzzle sem usar essa palavra, o LLM resolve-o.

Estas experiências foram interessantes, mas não respondem definitivamente à questão de saber se os modelos de IA são verdadeiramente inteligentes ou simplesmente máquinas preditivas de última geração.

No entanto, os resultados realçam a suscetibilidade dos LLMs aos dados de treino. Quando o GPT-4o é aprovado nos exames LSAT, está a "pensar" para encontrar as respostas aos problemas ou a recordá-las?

Enquanto os engenheiros não compreenderem o que se passa no interior das caixas negras de IA que criaram, as discussões sobre X continuarão por resolver.

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Eugene van der Watt

Eugene vem de uma formação em engenharia eletrónica e adora tudo o que é tecnologia. Quando faz uma pausa no consumo de notícias sobre IA, pode encontrá-lo à mesa de snooker.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições