Le dernier examen de l'humanité veut que vous posiez des questions difficiles à l'IA

17 septembre 2024

  • Le projet "Humanity's Last Exam" (Le dernier examen de l'humanité) invite à soumettre des questions difficiles pour remettre en question les modèles d'IA.
  • Les capacités des modèles d'IA avancés sont sur le point de dépasser les critères de référence standard utilisés pour les tester.
  • Une cagnotte d'un montant total de $500.000 sera attribuée aux questions les mieux sélectionnées.

Les critères d'évaluation ont du mal à suivre l'évolution des capacités des modèles d'IA et le projet "Humanity's Last Exam" souhaite que vous l'aidiez à y remédier.

Ce projet est le fruit d'une collaboration entre le Centre pour la sécurité de l'IA (CAIS) et l'entreprise de données sur l'IA Scale AI. Le projet vise à mesurer à quel point nous sommes proches d'obtenir des systèmes d'IA de niveau expert, ce que l'on appelle "l'intelligence artificielle". critères de référence existants ne sont pas capables de le faire.

OpenAI et CAIS ont mis au point le célèbre test MMLU (Massive Multitask Language Understanding) en 2021. À l'époque, selon le CAIS, "les systèmes d'IA n'étaient pas plus performants que les systèmes aléatoires".

Les performances impressionnantes du modèle o1 d'OpenAI ont "détruit les repères de raisonnement les plus populaires", selon Dan Hendrycks, directeur exécutif de CAIS.

Performances de la MMLU o1 d'OpenAI par rapport aux modèles précédents. Source : OpenAI

Une fois que les modèles d'IA auront atteint 100% sur le MMLU, comment les mesurerons-nous ? Selon le CAIS, "les tests existants sont devenus trop faciles et nous ne pouvons plus suivre correctement les développements de l'IA, ni savoir à quel point ils sont loin d'atteindre le niveau d'expert".

Quand on voit le bond en avant des scores de référence qu'o1 a ajouté aux chiffres déjà impressionnants de GPT-4o, on se dit qu'il ne faudra pas attendre longtemps avant qu'un modèle d'intelligence artificielle ne s'impose à la MMLU.

Le dernier examen de l'humanité demande aux gens de soumettre des questions qui les surprendraient vraiment si un modèle d'IA leur donnait la bonne réponse. Il s'agit de questions de niveau doctoral, et non de questions du type "combien de R dans fraise" qui font trébucher certains modèles.

M. Scale a expliqué que "les tests existants devenant trop faciles, nous perdons la capacité de faire la distinction entre les systèmes d'IA qui peuvent réussir des examens de premier cycle et ceux qui peuvent réellement contribuer à la recherche de pointe et à la résolution de problèmes".

Si vous avez une question originale qui pourrait dérouter un modèle d'IA avancé, vous pourriez voir votre nom ajouté en tant que co-auteur de l'article du projet et partager une cagnotte de $500 000 qui sera attribuée aux meilleures questions.

Pour vous donner une idée du niveau visé par le projet, Scale a expliqué que "si un étudiant de premier cycle sélectionné au hasard peut comprendre ce qui est demandé, c'est probablement trop facile pour les LLM d'aujourd'hui et de demain".

Il y a quelques restrictions intéressantes sur les types de questions qui peuvent être soumises. Ils ne veulent rien qui soit lié aux armes chimiques, biologiques, radiologiques ou nucléaires, ni aux cyberarmes utilisées pour attaquer les infrastructures critiques.

Si vous pensez avoir une question qui répond aux critères, vous pouvez la soumettre. ici.

Rejoindre l'avenir


SOUSCRIRE AUJOURD'HUI

Clair, concis, complet. Maîtrisez les développements de l'IA avec DailyAI

Eugène van der Watt

Eugene a une formation d'ingénieur en électronique et adore tout ce qui touche à la technologie. Lorsqu'il fait une pause dans sa consommation d'informations sur l'IA, vous le trouverez à la table de snooker.

×

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI

Inscrivez-vous à notre newsletter hebdomadaire et recevez un accès exclusif au dernier eBook de DailyAI : 'Mastering AI Tools : Your 2024 Guide to Enhanced Productivity" (Maîtriser les outils de l'IA : votre guide 2024 pour une meilleure productivité).

*En vous abonnant à notre lettre d'information, vous acceptez nos conditions d'utilisation. Politique de confidentialité et notre Conditions générales d'utilisation