Rapport: AI udvikler sig mere end mennesker, vi har brug for nye benchmarks

17. april 2024

  • Stanford University's AI Index Report giver indsigt i trends og den aktuelle tilstand inden for AI.
  • Rapporten siger, at AI-systemer nu rutinemæssigt overgår menneskers præstationer og derfor kræver nye benchmarks.
  • Mangel på standardiserede benchmarks til måling af risici og begrænsninger gør det svært at sammenligne modeller.

Stanford University udgav sin AI Index Report 2024, som bemærkede, at AI's hurtige fremskridt gør benchmark-sammenligninger med mennesker stadig mindre relevante.

Den årsberetning giver et omfattende indblik i tendenser og status for AI-udviklingen. Rapporten siger, at AI-modeller forbedres så hurtigt nu, at de benchmarks, vi bruger til at måle dem, i stigende grad bliver irrelevante.

Mange branche-benchmarks sammenligner AI-modeller med, hvor gode mennesker er til at udføre opgaver. Massive Multitask Language Understanding (MMLU)-benchmarken er et godt eksempel.

Den bruger multiple choice-spørgsmål til at evaluere LLM'er på tværs af 57 fag, herunder matematik, historie, jura og etik. MMLU har været det foretrukne AI-benchmark siden 2019.

Den menneskelige baseline-score på MMLU er 89,8%, og tilbage i 2019 scorede den gennemsnitlige AI-model lidt over 30%. Bare 5 år senere blev Gemini Ultra den første model, der slog den menneskelige baseline med en score på 90,04%.

Rapporten bemærker, at nuværende "AI-systemer rutinemæssigt overgår menneskers præstationer på standardbenchmarks." Tendenserne i grafen nedenfor synes at indikere, at MMLU og andre benchmarks skal udskiftes.

AI-modeller har nået og overgået menneskelige baseline i flere benchmarks. Kilde: Årsrapporten for AI-indekset 2024

AI-modeller har nået præstationsmætning på etablerede benchmarks som ImageNet, SQuAD og SuperGLUE, så forskere udvikler mere udfordrende tests.

Et eksempel er Graduate-Level Google-Proof Q&A Benchmark (GPQA), som gør det muligt at benchmarke AI-modeller op mod virkelig kloge mennesker i stedet for gennemsnitlig menneskelig intelligens.

GPQA-testen består af 400 svære multiple choice-spørgsmål på kandidatniveau. Eksperter, der har eller er i gang med en ph.d., besvarer spørgsmålene korrekt i 65% af tilfældene.

I GPQA-papiret står der, at "højt kvalificerede ikke-ekspertvalidatorer kun opnår 34% nøjagtighed, når de bliver stillet spørgsmål uden for deres felt, på trods af at de i gennemsnit bruger over 30 minutter med ubegrænset adgang til internettet."

I sidste måned annoncerede Anthropic, at Claude 3 scorede lige under 60% med 5 skud CoT prompting. Vi får brug for et større benchmark.

Menneskelige evalueringer og sikkerhed

Rapporten bemærkede, at AI stadig står over for betydelige problemer: "Den kan ikke håndtere fakta på en pålidelig måde, udføre komplekse ræsonnementer eller forklare sine konklusioner."

Disse begrænsninger bidrager til en anden egenskab ved AI-systemet, som ifølge rapporten er dårligt målt; AI-sikkerhed. Vi har ikke effektive benchmarks, der giver os mulighed for at sige: "Denne model er mere sikker end den anden."

Det skyldes dels, at det er svært at måle, og dels at "AI-udviklere mangler gennemsigtighed, især med hensyn til offentliggørelse af træningsdata og metoder."

Rapporten bemærkede, at en interessant tendens i branchen er at crowd-source menneskelige evalueringer af AI-præstationer i stedet for benchmark-tests.

Det er svært at rangordne en models billedæstetik eller prosa med en test. Derfor siger rapporten, at "benchmarking langsomt er begyndt at gå i retning af at inkorporere menneskelige evalueringer som Chatbot Arena Leaderboard i stedet for computeriserede ranglister som ImageNet eller SQuAD."

Når AI-modeller ser den menneskelige baseline forsvinde i bakspejlet, kan følelser i sidste ende afgøre, hvilken model vi vælger at bruge.

Tendenserne tyder på, at AI-modeller i sidste ende bliver klogere end os og sværere at måle. Snart vil vi måske sige: "Jeg ved ikke hvorfor, men jeg kan bare bedre lide den her."

Deltag i fremtiden


TILMELD DIG I DAG

Klar, kortfattet, omfattende. Få styr på AI-udviklingen med DailyAI

Eugene van der Watt

Eugene har en baggrund som elektronikingeniør og elsker alt, hvad der har med teknologi at gøre. Når han tager en pause fra at læse AI-nyheder, kan du finde ham ved snookerbordet.

×

GRATIS PDF EKSKLUSIVT
Vær på forkant med DailyAI

Tilmeld dig vores ugentlige nyhedsbrev og få eksklusiv adgang til DailyAI's seneste e-bog: 'Mastering AI Tools: Din 2024-guide til forbedret produktivitet'.

*Ved at tilmelde dig vores nyhedsbrev accepterer du vores Politik for beskyttelse af personlige oplysninger og vores Vilkår og betingelser