En undersøgelse foretaget af Universitetet i Stavanger i Norge viser, at store AI-sprogmodeller (LLM'er) klarede sig bedre end mennesker i tests, der var designet til at måle kreativ tænkning.
Forskerne satte 256 frivillige mennesker op mod tre AI-chatbots - ChatGPT3, ChatGPT4 og Copy.Ai (baseret på GPT-3) - for at finde frem til alternative anvendelser af hverdagsgenstande som reb, kasser, blyanter og stearinlys.
Undersøgelsen måler divergent tænkning via Alternate Uses Task (AUT), der blev udviklet af psykolog J.P. Guilford i 1967.
Ideen er, at deltagerne skal udtænke så mange anvendelsesmuligheder for enkle genstande som muligt inden for en bestemt tidsperiode. For eksempel kan en papirclips bruges som dirke eller graveringsværktøj.
AI'er klarede sig generelt bedre end mennesker i opgaven. "Det er faktisk en bemærkelsesværdig type evne, som AI-chatbots udviser," siger Simone Grassini, der er forfatter til undersøgelsen. "Resultaterne viser, at AI er bedre end de fleste mennesker til at tænke kreativt."
Både mennesker og AI-deltagere fulgte de samme instruktioner, der understregede vigtigheden af kreativ kvalitet frem for mængden af ideer.
Chatbots blev testet 11 gange ved hjælp af fire forskellige objektprompter. Der blev foretaget nogle justeringer for at sidestille antallet af ideer genereret af chatbots med dem fra menneskelige deltagere.
Selvom chatbots i gennemsnit scorede højere i divergente tænkeopgaver, bemærkede forskningen også, at de mest innovative menneskeskabte ideer matchede eller overgik AI-chatbotternes.
"Vores resultater viser, at de bedste mennesker, i hvert fald indtil videre, stadig klarer sig bedre end den kunstige intelligens", tilføjer Grassini.
Dette er afslørende - mennesker kan producere ægte kvalitet, men ikke så hurtigt som AI, hvilket er, hvad man højst sandsynligt ville forvente.
Den undersøgelseoffentliggjort i Nature, fremhæver, at AI-genererede svar scorede højere end menneskelige svar i kategorier som semantisk afstand og kreativitet.
Mennesker overgik dog stadig chatbots i syv ud af otte scoringskategorier vedrørende de bedste individuelle svar.
"Jeg vidste, at chatbotten ville have klaret sig godt, men jeg tror, den klarede sig endnu bedre, end jeg havde forventet," siger Grassini.
På trods af de lovende resultater understregede forskerne, at den unikke kompleksitet i menneskelig kreativitet kan være en udfordring for AI at genskabe eller overgå fuldt ud.
Grassini konkluderede: "Det er stadig uvist, om disse evner hos AI vil blive omsat direkte i AI-systemer og erstatte menneskelige jobs, der kræver kreativ tænkning. Jeg foretrækker at tro, at AI vil hjælpe mennesker med at forbedre deres kapacitet."
Mere om undersøgelsen
Undersøgelsen afslørede, at AI kunne anvende nye og innovative tilgange til kreativ besvarelse af spørgsmål.
Mens de allerbedste svar stadig var af menneskelig oprindelse, var mennesker langt mere tilbøjelige til at svinge i koncentration og andre faktorer, der forhindrede dem i at opnå bredden i AI-genererede svar.
Sådan her fungerede det:
- Metodologi: Undersøgelsen anvendte Alternate Uses Task (AUT), en veletableret test, der er sikker på divergent tænkning og kreativitet. Deltagerne omfattede 256 mennesker og tre avancerede AI-chatbots. De blev bedt om at tænke på usædvanlige og kreative anvendelser af hverdagsgenstande, og både de menneskelige og AI-svarene blev vurderet ud fra deres originalitet og anvendelighed.
- Sammenligning af ydeevne: I gennemsnit overgik AI-chatbots de menneskelige deltagere i både gennemsnitlig og maksimal kreativitetsscore. De højest præsterende mennesker kunne dog stadig matche eller overgå AI-chatbotternes kreativitetsniveauer.
- Forskelle mellem AI og mennesker: Undersøgelsen viste, at de menneskelige deltagere ofte underpræsterede på grund af tab af opmærksomhed midtvejs i opgaven. Omvendt udførte AI opgaven uden at blive træt, hvilket bidrog til en generelt højere præstation.
- Styrker og svagheder ved AI og menneskelig kreativitet: Undersøgelsen peger på, at AI's adgang til større beregningsressourcer forklarer deres høje gennemsnitlige præstation. De kan i bund og grund beregne flere plausible alternative anvendelser af objekter, hvilket giver dem en større chance for at udvælge de mest usædvanlige anvendelser.
- Begrænsninger og fremtidige retninger: Undersøgelsen anerkender begrænsninger som f.eks. manglende demografisk mangfoldighed blandt de menneskelige deltagere. Desuden bruger den kun én kreativitetstest af moderat alder, hvilket naturligvis er begrænset i omfang.
Forskere skaber nye metoder til at sammenligne AI og menneskelige tilgange til tests, spørgsmål og andre opgaver.
En nylig undersøgelse viste, at ChatGPT udmærkede studerende i ni ud af 32 emner - Ret solidt, men sikkert godt nyt for menneskeheden.
Vi er stadig en generation af AI fra, at teknologien slår os fuldstændigt.