Uit een onderzoek van de Universiteit van Stavanger in Noorwegen blijkt dat AI grote taalmodellen (LLM's) beter presteren dan mensen in tests die zijn ontworpen om creatief denken te meten.
Onderzoekers stelden 256 menselijke vrijwilligers tegenover drie AI-chatbots - ChatGPT3, ChatGPT4 en Copy.Ai (gebaseerd op GPT-3) - bij het genereren van alternatieve toepassingen voor alledaagse voorwerpen zoals touwen, dozen, potloden en kaarsen.
Het onderzoek meet divergent denken via de Alternate Uses Task (AUT), ontwikkeld door psycholoog J.P. Guilford in 1967.
Het is de bedoeling dat de deelnemers zoveel mogelijk toepassingen bedenken voor eenvoudige voorwerpen binnen een bepaalde tijd. Een paperclip kan bijvoorbeeld worden gebruikt als een lockpick of als graveergereedschap.
AI's presteerden over het algemeen beter dan mensen in de taak. "Dit is inderdaad een opmerkelijk soort vermogen dat AI-chatbots laten zien," zei Simone Grassini, de auteur van het onderzoek. "De bevindingen laten zien dat AI beter is dan de meeste mensen in creatief denken."
Zowel menselijke als AI-deelnemers volgden dezelfde instructies, waarbij het belang van creatieve kwaliteit boven de kwantiteit van ideeën werd benadrukt.
Chatbots werden 11 keer getest met vier verschillende objectprompts. Er werden enkele aanpassingen gedaan om het aantal ideeën dat door chatbots werd gegenereerd gelijk te stellen aan die van menselijke deelnemers.
Hoewel chatbots gemiddeld hoger scoorden in divergente denktaken, merkte het onderzoek ook op dat de meest innovatieve, door mensen gegenereerde ideeën overeenkwamen met die van de AI-chatbots of deze zelfs overtroffen.
"Onze resultaten laten zien dat, in ieder geval op dit moment, de beste mensen nog steeds beter presteren dan de AI," voegde Grassini toe.
Dit is veelzeggend - mensen kunnen echte kwaliteit produceren, maar niet zo snel als AI, wat je waarschijnlijk zou verwachten.
De onderzoekgepubliceerd in Nature, laat zien dat AI-gegenereerde antwoorden hoger scoorden dan menselijke antwoorden in categorieën als semantische afstand en creativiteit.
Mensen overtroffen chatbots echter nog steeds in zeven van de acht scoringscategorieën met betrekking tot de beste individuele antwoorden.
"Ik wist dat de chatbot goed zou presteren, maar ik denk dat hij zelfs beter presteerde dan ik had verwacht," merkte Grassini op.
Ondanks de veelbelovende resultaten benadrukten de onderzoekers dat de unieke complexiteit van menselijke creativiteit een uitdaging kan zijn voor AI om volledig na te bootsen of te overtreffen.
Grassini concludeerde: "Het moet nog blijken of deze capaciteiten van AI zich direct zullen vertalen op AI-systemen, en menselijke banen zullen vervangen die creatief denken vereisen. Ik denk liever dat AI mensen zal helpen hun capaciteiten te verbeteren."
Meer over het onderzoek
Uit het onderzoek bleek dat AI nieuwe en innovatieve benaderingen kan gebruiken voor het creatief beantwoorden van vragen.
Hoewel de allerbeste reacties nog steeds van menselijke oorsprong waren, waren mensen veel vatbaarder voor schommelingen in concentratie en andere factoren die hen verhinderden om de reikwijdte van door AI gegenereerde reacties te bereiken.
Dit is hoe het werkte:
- Methodologie: Het onderzoek maakte gebruik van de Alternate Uses Task (AUT), een al lang bekende test voor divergent denken en creativiteit. Aan het onderzoek namen 256 mensen en drie geavanceerde AI-chatbots deel. Ze werden gevraagd om ongewone en creatieve toepassingen te bedenken voor alledaagse voorwerpen en zowel de menselijke als de AI-antwoorden werden geëvalueerd op basis van hun originaliteit en bruikbaarheid.
- Prestatievergelijking: Gemiddeld presteerden AI-chatbots beter dan menselijke deelnemers in zowel gemiddelde als maximale creativiteitsscores. De best presterende mensen konden echter nog steeds de creativiteitsniveaus van AI-chatbots evenaren of overtreffen.
- Verschillen tussen AI en mensen: Uit het onderzoek bleek dat menselijke deelnemers vaak ondermaats presteerden doordat ze halverwege de taak hun aandacht verloren. De AI daarentegen voerde de taak uit zonder vermoeid te raken, wat bijdroeg aan de algehele hogere prestaties.
- Sterke en zwakke punten van AI en menselijke creativiteit: Het onderzoek stelt dat de toegang van AI's tot grotere rekenkracht hun hoge gemiddelde prestaties verklaart. Ze kunnen in wezen meer plausibele alternatieve toepassingen voor objecten berekenen, waardoor ze een grotere kans hebben om de meest ongebruikelijke toepassingen eruit te pikken.
- Beperkingen en toekomstige richtingen: De studie erkent haar beperkingen, zoals een gebrek aan demografische diversiteit onder de menselijke deelnemers. Bovendien wordt er maar één creativiteitstest van gemiddelde leeftijd gebruikt, wat natuurlijk een beperkte reikwijdte heeft.
Onderzoekers creëren nieuwe methoden om AI en menselijke benaderingen van tests, vragen en andere taken te vergelijken.
Uit een recent onderzoek bleek dat ChatGPT studenten uitblonk in negen van de 32 onderwerpen - behoorlijk solide, maar goed nieuws voor de mensheid, waarschijnlijk.
We zijn nog één generatie AI verwijderd van de technologie die ons volledig zal verslaan.