Les LLM sont vraiment mauvais pour résoudre des énigmes simples de traversée de rivière.

25 juin 2024

  • Les utilisateurs de X ont testé les principaux LLM pour voir s'ils pouvaient résoudre des problèmes de logique simples.
  • Claude et GPT-4o se débattent avec des énigmes simples de traversée de rivière et proposent des solutions ridicules.
  • Les résultats peuvent mettre en évidence le manque de bon sens des LLM ou leur vulnérabilité aux données d'apprentissage

Les grands modèles de langage comme le GPT-4o peuvent accomplir des tâches incroyablement complexes, mais même les modèles les plus performants se heurtent à des problèmes de raisonnement de base que les enfants peuvent résoudre.

Dans une interview accordée à CBS, le "parrain de l'IA", Geoffrey Hinton, a déclaré que les systèmes d'IA pourraient être plus intelligents que nous ne le pensons et qu'il y a un risque que les machines prennent le contrôle.

Interrogé sur le niveau de la technologie actuelle de l'IA, M. Hinton a déclaré : "Je pense que nous entrons dans une période où, pour la première fois, nous pourrions avoir des objets plus intelligents que nous".

Yann LeCun, responsable scientifique de Meta pour l'IA, veut nous faire croire que nous sommes encore loin de voir l'IA atteindre une intelligence de niveau "chien".

Quel est le bon choix ?

Cette semaine, les utilisateurs de X ont posté des exemples de l'incroyable capacité de codage du logiciel Anthropic's nouveau Claude modèle expositions. D'autres ont mené des expériences pour montrer que les modèles d'intelligence artificielle ont encore du mal à raisonner de manière très élémentaire.

Puzzle sur la traversée d'une rivière

L'énigme classique de la traversée d'une rivière a de multiples variantes, mais Version de Wikipédia résume ainsi la situation :

Un fermier accompagné d'un loup, d'une chèvre et d'un chou doit traverser une rivière en bateau. Le bateau ne peut transporter que le fermier et un seul objet. S'ils sont laissés ensemble sans surveillance, le loup mangera la chèvre ou la chèvre mangera le chou. Comment peuvent-ils traverser la rivière sans que rien ne soit mangé ?

Trouver la solution nécessite un peu de planification et de raisonnement sur différents scénarios, mais ce n'est pas un problème particulièrement difficile à résoudre. Si vous êtes humain.

GPT-4o peut-il la résoudre ? Si vous copiez et collez l'énigme dans ChatGPT, il vous donne la bonne réponse, mais cette page Wikipedia était certainement dans ses données d'entraînement.

Et si nous simplifiions l'énigme et la modifiions légèrement pour que le LLM ne puisse pas s'appuyer sur ses données d'apprentissage ?

Le professeur de mathématiques britannique Sir William Timothy Gowers a montré comment l'incapacité des LLM à appliquer la logique est facilement mise en évidence.

Tentative ratée de ChatGPT pour résoudre une énigme simplifiée de traversée de rivière. Source : X @wtgowers

La bonne réponse à l'énigme est qu'un seul voyage est nécessaire. Mais il semble que ChatGPT essaie de se souvenir d'une réponse plutôt que de raisonner simplement à travers l'énigme.

Claude Sonnet 3.5 est-il meilleur ?

L'expérience de Colin Fraser, spécialiste des métadonnées, confirme que même le meilleur modèle d'IA actuellement disponible ne peut résoudre cette simple énigme.

Il était peut-être un peu malhonnête de la part d'un scientifique de Meta de ne pas montrer ses résultats en utilisant Llama 3.

J'ai posé la même question à Meta AI, qui se trompe également du tout au tout.

Meta AI powered by Llama 3 se trompe également dans la réponse à l'énigme de la rivière. Source : Meta

Yann LeCun a expliqué la raison de ces résultats en déclarant : "Le problème est que les LLM n'ont aucun sens commun, aucune compréhension du monde et aucune capacité à planifier (et à raisonner)".

Est-ce vrai ou y a-t-il autre chose en jeu ?

Ce que ces interactions pourraient révéler n'est pas un manque de capacité de raisonnement, mais plutôt à quel point la production d'un LLM est influencée par ses données d'apprentissage. La réponse de Meta AI, qui parle d'une "énigme classique", laisse entendre que c'est peut-être ce qui se passe.

Les variantes de l'énigme de la traversée d'une rivière font souvent référence au nombre de "voyages" nécessaires. Lorsque vous posez l'énigme sans utiliser ce mot, le LLM la résout.

Ces expériences étaient intéressantes, mais elles ne répondent pas définitivement à la question de savoir si les modèles d'IA sont réellement intelligents ou s'il s'agit simplement de machines prédictives de dernière génération.

Cependant, les résultats soulignent la sensibilité des LLM aux données d'entraînement. Lorsque GPT-4o réussit les examens du LSAT, est-ce qu'il "réfléchit" pour trouver les réponses aux problèmes ou est-ce qu'il s'en souvient ?

Tant que les ingénieurs ne comprendront pas ce qui se passe à l'intérieur des boîtes noires de l'IA qu'ils ont créées, les discussions sur l'X resteront sans réponse.

Rejoindre l'avenir


SOUSCRIRE AUJOURD'HUI

Clair, concis, complet. Maîtrisez les développements de l'IA avec DailyAI

Eugène van der Watt

Eugene a une formation d'ingénieur en électronique et adore tout ce qui touche à la technologie. Lorsqu'il fait une pause dans sa consommation d'informations sur l'IA, vous le trouverez à la table de snooker.

×

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI

Inscrivez-vous à notre newsletter hebdomadaire et recevez un accès exclusif au dernier eBook de DailyAI : 'Mastering AI Tools : Your 2024 Guide to Enhanced Productivity" (Maîtriser les outils de l'IA : votre guide 2024 pour une meilleure productivité).

*En vous abonnant à notre lettre d'information, vous acceptez nos conditions d'utilisation. Politique de confidentialité et notre Conditions générales d'utilisation