En studie utført av Universitetet i Stavanger viser at store AI-språkmodeller (LLM-er) utkonkurrerte mennesker i tester som er utviklet for å måle kreativ tenkning.
Forskerne satte 256 frivillige mennesker opp mot tre AI-chatboter - ChatGPT3, ChatGPT4 og Copy.Ai (basert på GPT-3) - for å finne alternative bruksområder for hverdagsgjenstander som tau, esker, blyanter og stearinlys.
Studien måler divergent tenkning ved hjelp av Alternate Uses Task (AUT), som ble utviklet av psykologen J.P. Guilford i 1967.
Tanken er at deltakerne skal finne på så mange bruksområder for enkle gjenstander som mulig i løpet av en bestemt tidsperiode. En binders kan for eksempel brukes som dirke eller graveringsverktøy.
AI-er utkonkurrerte generelt mennesker i oppgaven. "Dette er faktisk en bemerkelsesverdig type evne som AI-chatboter utviser", sier Simone Grassini, forfatteren av studien. "Funnene viser at AI er bedre enn de fleste mennesker når det gjelder kreativ tenkning."
Både mennesker og AI-deltakere fulgte de samme instruksjonene, og det ble lagt vekt på at kreativ kvalitet var viktigere enn kvantitet av ideer.
Chatbotene ble testet 11 ganger ved hjelp av fire forskjellige objektmeldinger. Det ble gjort noen justeringer for å likestille antallet ideer generert av chatbotene med antallet ideer fra de menneskelige deltakerne.
Selv om chatbotene i gjennomsnitt scoret høyere på divergent tenkning, viste undersøkelsen også at de mest innovative ideene som var generert av mennesker, matchet eller overgikk ideene til AI-chatbotene.
"Resultatene våre viser at de beste menneskene, i hvert fall foreløpig, fortsatt gjør det bedre enn den kunstige intelligensen", legger Grassini til.
Dette er avslørende - mennesker kan produsere ekte kvalitet, men ikke like raskt som kunstig intelligens, noe som er det du mest sannsynlig ville forvente.
Den studiepublisert i Nature, viser at AI-genererte svar scoret høyere enn menneskelige svar i kategorier som semantisk avstand og kreativitet.
Mennesker overgikk likevel chatbotene i sju av åtte poengkategorier når det gjaldt de beste individuelle svarene.
"Jeg visste at chatboten ville ha gjort det bra, men jeg tror den gjorde det enda bedre enn jeg hadde forventet", kommenterer Grassini.
Til tross for de lovende resultatene understreket forskerne at den unike kompleksiteten i menneskelig kreativitet kan være utfordrende for kunstig intelligens å gjenskape eller overgå fullt ut.
Grassini konkluderte: "Det gjenstår fortsatt å finne ut om disse egenskapene til AI vil slå direkte ut i AI-systemer og erstatte menneskelige jobber som krever kreativ tenkning. Jeg foretrekker å tro at AI vil hjelpe mennesker med å forbedre kapasiteten sin."
Mer om studien
Studien viste at kunstig intelligens kan ta i bruk nye og innovative tilnærminger til kreativ spørsmålsstilling.
Selv om de aller beste svarene fortsatt var av menneskelig opprinnelse, var mennesker langt mer utsatt for konsentrasjonssvingninger og andre faktorer som hindret dem i å oppnå den samme bredden av AI-genererte svar.
Slik fungerte det:
- Metodikk: Studien tok utgangspunkt i Alternate Uses Task (AUT), en veletablert test for divergent tenkning og kreativitet. Deltakerne var 256 mennesker og tre avanserte AI-chatboter. De ble bedt om å tenke på uvanlige og kreative bruksområder for hverdagslige gjenstander, og både menneskenes og AI-enes svar ble evaluert ut fra originalitet og nytteverdi.
- Sammenligning av ytelse: I gjennomsnitt presterte AI-chatbotene bedre enn de menneskelige deltakerne, både når det gjaldt gjennomsnittlig og maksimal kreativitetsscore. De menneskene som presterte best, kunne likevel matche eller overgå kreativitetsnivået til AI-chatbotene.
- Forskjeller mellom kunstig intelligens og mennesker: Studien viste at de menneskelige deltakerne ofte underpresterte fordi de mistet oppmerksomheten midtveis i oppgaven. AI utførte derimot oppgaven uten å bli sliten, noe som bidro til en generelt høyere ytelse.
- Styrker og svakheter ved kunstig intelligens og menneskelig kreativitet: Studien viser at AI-enes tilgang til større beregningsressurser forklarer deres høye gjennomsnittlige ytelse. De kan i hovedsak beregne flere plausible alternative bruksområder for objekter, noe som gir dem en større sjanse til å velge ut de mest uvanlige bruksområdene.
- Begrensninger og fremtidig retning: Studien erkjenner begrensninger, som manglende demografisk mangfold blant deltakerne. Dessuten bruker den bare én kreativitetstest av moderat alder, noe som naturlig nok er begrenset i omfang.
Forskere utvikler nye metoder for å sammenligne kunstig intelligens og menneskelige tilnærminger til tester, spørsmål og andre oppgaver.
En fersk studie viste at ChatGPT utmerker seg i ni av 32 fag - Ganske solid, men sannsynligvis gode nyheter for menneskeheten.
Vi er fortsatt én generasjon AI unna at teknologien slår oss fullstendig.