Rapport: AI utvikler seg raskere enn mennesker, og vi trenger nye målestokker

17. april 2024

  • Stanford Universitys AI Index Report gir innsikt i trendene og den nåværende tilstanden innen AI
  • Rapporten sier at AI-systemer nå rutinemessig overgår menneskelige prestasjoner og dermed krever nye referanser
  • Mangel på standardiserte referanser for måling av risiko og begrensninger gjør det vanskelig å sammenligne modeller

Stanford University offentliggjorde sin AI Index Report 2024, der det påpekes at AIs raske utvikling gjør sammenligninger med mennesker stadig mindre relevante.

Den årsrapport gir et omfattende innblikk i trendene og utviklingen innen kunstig intelligens. Rapporten sier at AI-modeller forbedres så raskt nå at referansene vi bruker for å måle dem, i økende grad blir irrelevante.

Mange bransjereferanser sammenligner AI-modeller med hvor gode mennesker er til å utføre oppgaver. Massive Multitask Language Understanding (MMLU) er et godt eksempel på dette.

Den bruker flervalgsspørsmål for å evaluere LLM-er i 57 fag, inkludert matematikk, historie, juss og etikk. MMLU har vært den viktigste AI-referansen siden 2019.

Den menneskelige baseline-poengsummen på MMLU er 89,8%, og i 2019 fikk den gjennomsnittlige AI-modellen litt over 30%. Bare fem år senere ble Gemini Ultra den første modellen som slo den menneskelige baseline med en poengsum på 90,04%.

Rapporten konstaterer at dagens "AI-systemer rutinemessig overgår menneskelig ytelse på standard benchmarks". Trendene i grafen nedenfor tyder på at MMLU og andre benchmarks må byttes ut.

AI-modeller har nådd og overgått menneskelige referanseverdier i flere benchmarks. Kilde: Årsrapporten for AI-indeksen 2024

AI-modeller har nådd ytelsesmetning på etablerte benchmarks som ImageNet, SQuAD og SuperGLUE, og forskerne utvikler derfor mer utfordrende tester.

Et eksempel er Graduate-Level Google-Proof Q&A Benchmark (GPQA), som gjør det mulig å måle AI-modeller mot virkelig smarte mennesker, i stedet for mot gjennomsnittlig menneskelig intelligens.

GPQA-testen består av 400 vanskelige flervalgsspørsmål på høyere nivå. Eksperter som har eller er i ferd med å ta doktorgrad, svarer riktig på spørsmålene i 65% av tilfellene.

I GPQA-rapporten står det at "høyt kvalifiserte validatorer som ikke er eksperter, bare oppnår 34% nøyaktighet når de blir stilt spørsmål utenfor sitt eget felt, til tross for at de i gjennomsnitt bruker over 30 minutter med ubegrenset tilgang til nettet".

I forrige måned kunngjorde Anthropic at Claude 3 fikk rett under 60% med 5 skudd CoT-melding. Vi trenger en større referanse.

Menneskelige evalueringer og sikkerhet

Rapporten peker på at kunstig intelligens fortsatt står overfor betydelige problemer: "Den kan ikke håndtere fakta på en pålitelig måte, utføre komplekse resonnementer eller forklare konklusjonene sine."

Disse begrensningene bidrar til en annen egenskap ved AI-systemet som ifølge rapporten er dårlig målt; AI-sikkerhet. Vi har ikke effektive referanser som gjør at vi kan si: "Denne modellen er tryggere enn den andre."

Det skyldes delvis at det er vanskelig å måle, og delvis at "AI-utviklere mangler åpenhet, spesielt når det gjelder offentliggjøring av opplæringsdata og metoder".

Rapporten bemerket at en interessant trend i bransjen er å bruke menneskelige evalueringer av AI-ytelse i stedet for referansetester.

Det er vanskelig å rangere en modells bildestetikk eller prosa med en test. Som et resultat sier rapporten at "benchmarking sakte har begynt å skifte mot å innlemme menneskelige evalueringer som Chatbot Arena Leaderboard i stedet for datastyrte rangeringer som ImageNet eller SQuAD."

Etter hvert som AI-modeller ser den menneskelige baseline forsvinne i bakspeilet, kan følelser etter hvert avgjøre hvilken modell vi velger å bruke.

Trendene tyder på at AI-modeller etter hvert vil bli smartere enn oss og vanskeligere å måle. Snart vil vi kanskje si: "Jeg vet ikke hvorfor, men jeg liker bare denne bedre."

Bli med i fremtiden


ABONNER I DAG

Tydelig, kortfattet og omfattende. Få et grep om AI-utviklingen med DagligAI

Eugene van der Watt

Eugene har bakgrunn som elektroingeniør og elsker alt som har med teknologi å gjøre. Når han tar en pause fra AI-nyhetene, finner du ham ved snookerbordet.

×

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI

Meld deg på vårt ukentlige nyhetsbrev og få eksklusiv tilgang til DailyAIs nyeste e-bok: "Mastering AI Tools: Din 2024-guide til økt produktivitet".

*Ved å abonnere på vårt nyhetsbrev aksepterer du vår Retningslinjer for personvern og vår Vilkår og betingelser