Menneskehedens sidste eksamen vil have dine svære spørgsmål til at overraske AI

17. september 2024

  • Projektet Humanity's Last Exam efterlyser indsendelser af svære spørgsmål, der kan udfordre AI-modeller.
  • De avancerede AI-modellers evner er tæt på at overgå de standardbenchmarks, der bruges til at teste dem.
  • En pulje på i alt $500.000 vil blive uddelt til de bedst udvalgte spørgsmål.

Benchmarks har svært ved at følge med udviklingen af AI-modeller, og projektet Humanity's Last Exam ønsker din hjælp til at løse dette problem.

Projektet er et samarbejde mellem Center for AI Safety (CAIS) og AI-datavirksomheden Scale AI. Projektet har til formål at måle, hvor tæt vi er på at opnå AI-systemer på ekspertniveau, noget eksisterende benchmarks ikke er i stand til.

OpenAI og CAIS udviklede det populære MMLU-benchmark (Massive Multitask Language Understanding) i 2021. Dengang sagde CAIS, at "AI-systemer ikke klarede sig bedre end tilfældigt."

Den imponerende præstation af OpenAI's o1-model har "ødelagt de mest populære ræsonnement-benchmarks", ifølge Dan Hendrycks, administrerende direktør for CAIS.

OpenAI's o1 MMLU-præstation sammenlignet med tidligere modeller. Kilde: OpenAI

Når AI-modeller når 100% på MMLU, hvordan vil vi så måle dem? CAIS siger: "Eksisterende tests er nu blevet for lette, og vi kan ikke længere følge AI-udviklingen godt, eller hvor langt de er fra at blive ekspertniveau."

Når man ser det spring i benchmarkresultater, som o1 tilføjede til de allerede imponerende GPT-4o-tallene, varer det ikke længe, før en AI-model klarer MMLU.

Humanity's Last Exam beder folk om at indsende spørgsmål, som virkelig ville overraske dig, hvis en AI-model leverede det rigtige svar. De vil have eksamensspørgsmål på ph.d.-niveau, ikke af typen "hvor mange R'er er der i jordbær", som får nogle modeller til at snuble.

Scale forklarede, at "når de eksisterende tests bliver for lette, mister vi evnen til at skelne mellem AI-systemer, der kan klare sig til eksamen, og dem, der virkelig kan bidrage til frontlinjeforskning og problemløsning."

Hvis du har et originalt spørgsmål, der kan gøre en avanceret AI-model stum, kan du få dit navn tilføjet som medforfatter til projektets artikel og få del i en pulje på $500.000, der uddeles til de bedste spørgsmål.

For at give dig en idé om det niveau, projektet sigter mod, forklarede Scale, at "hvis en tilfældigt udvalgt bachelor kan forstå, hvad der bliver spurgt om, er det sandsynligvis for let for nutidens og fremtidens kandidatstuderende."

Der er et par interessante begrænsninger på den slags spørgsmål, der kan indsendes. De vil ikke have noget, der er relateret til kemiske, biologiske, radiologiske og nukleare våben eller cybervåben, der bruges til at angribe kritisk infrastruktur.

Hvis du mener, at du har et spørgsmål, der opfylder kravene, kan du indsende det her.

Deltag i fremtiden


TILMELD DIG I DAG

Klar, kortfattet, omfattende. Få styr på AI-udviklingen med DailyAI

Eugene van der Watt

Eugene har en baggrund som elektronikingeniør og elsker alt, hvad der har med teknologi at gøre. Når han tager en pause fra at læse AI-nyheder, kan du finde ham ved snookerbordet.

×

GRATIS PDF EKSKLUSIVT
Vær på forkant med DailyAI

Tilmeld dig vores ugentlige nyhedsbrev og få eksklusiv adgang til DailyAI's seneste e-bog: 'Mastering AI Tools: Din 2024-guide til forbedret produktivitet'.

*Ved at tilmelde dig vores nyhedsbrev accepterer du vores Politik for beskyttelse af personlige oplysninger og vores Vilkår og betingelser