Eine von der Universität Stavanger in Norwegen durchgeführte Studie zeigt, dass KI-Großsprachmodelle (LLMs) in Tests zur Messung des kreativen Denkens besser abschneiden als Menschen.
Die Forscher ließen 256 menschliche Freiwillige gegen drei KI-Chatbots antreten - ChatGPT3, ChatGPT4 und Copy.Ai (basierend auf GPT-3) - um alternative Verwendungsmöglichkeiten für Alltagsgegenstände wie Seile, Schachteln, Bleistifte und Kerzen zu finden.
Die Studie misst das divergente Denken anhand der Alternate Uses Task (AUT), die 1967 von dem Psychologen J.P. Guilford entwickelt wurde.
Die Teilnehmer sollen sich innerhalb eines bestimmten Zeitraums so viele Verwendungsmöglichkeiten für einfache Gegenstände wie möglich ausdenken. Eine Büroklammer könnte zum Beispiel als Dietrich oder Gravurwerkzeug verwendet werden.
Die KI übertraf bei dieser Aufgabe im Allgemeinen die menschliche Leistung. "Dies ist in der Tat eine bemerkenswerte Fähigkeit, die KI-Chatbots an den Tag legen", sagte Simone Grassini, die Autorin der Studie. "Die Ergebnisse zeigen, dass KI im kreativen Denken besser ist als die meisten Menschen."
Sowohl die menschlichen als auch die KI-Teilnehmer folgten denselben Anweisungen, wobei die Bedeutung der kreativen Qualität gegenüber der Quantität der Ideen betont wurde.
Chatbots wurden 11 Mal mit vier verschiedenen Objektaufforderungen getestet. Es wurden einige Anpassungen vorgenommen, um die Anzahl der von den Chatbots generierten Ideen denen der menschlichen Teilnehmer anzugleichen.
Obwohl Chatbots bei Aufgaben zum divergenten Denken im Durchschnitt besser abschnitten, wurde in der Studie auch festgestellt, dass die innovativsten von Menschen generierten Ideen denen der KI-Chatbots entsprachen oder sie sogar übertrafen.
"Unsere Ergebnisse zeigen, dass, zumindest im Moment, die besten Menschen die KI immer noch übertreffen", fügte Grassini hinzu.
Das ist aufschlussreich: Menschen können echte Qualität produzieren, aber nicht so schnell wie KI, was man eigentlich erwarten würde.
Die StudieDie in Nature veröffentlichte Studie zeigt, dass KI-generierte Antworten in Kategorien wie semantische Distanz und Kreativität besser abschnitten als menschliche Antworten.
Dennoch übertrafen die Menschen die Chatbots in sieben von acht Bewertungskategorien hinsichtlich der besten individuellen Antworten.
"Ich wusste, dass der Chatbot gut abschneiden würde, aber ich glaube, er hat sogar noch besser abgeschnitten, als ich erwartet hatte", sagte Grassini.
Trotz der vielversprechenden Ergebnisse betonten die Forscher, dass es für KI schwierig sein könnte, die einzigartige Komplexität menschlicher Kreativität vollständig zu reproduzieren oder zu übertreffen.
Grassini schloss mit den Worten: "Es muss sich erst noch herausstellen, ob diese Fähigkeiten der KI direkt auf KI-Systeme übertragen werden und menschliche Arbeitsplätze, die kreatives Denken erfordern, ersetzen werden. Ich denke eher, dass die KI den Menschen helfen wird, ihre Fähigkeiten zu verbessern".
Mehr über die Studie
Die Studie ergab, dass KI neuartige und innovative Ansätze zur kreativen Beantwortung von Fragen verfolgen kann.
Die allerbesten Antworten waren zwar immer noch menschlichen Ursprungs, aber Menschen waren viel anfälliger für Konzentrationsschwankungen und andere Faktoren, die sie daran hinderten, die Bandbreite der von der KI generierten Antworten zu erreichen.
Und so funktionierte es:
- Methodik: Für die Studie wurde der Alternate Uses Task (AUT) verwendet, ein seit langem etablierter Test für divergentes Denken und Kreativität. Die Teilnehmer waren 256 Menschen und drei fortgeschrittene KI-Chatbots. Sie wurden gebeten, sich ungewöhnliche und kreative Verwendungsmöglichkeiten für Alltagsgegenstände auszudenken, und sowohl die menschlichen als auch die KI-Antworten wurden anhand ihrer Originalität und Nützlichkeit bewertet.
- Leistungsvergleich: Im Durchschnitt übertrafen die KI-Chatbots die menschlichen Teilnehmer sowohl bei den durchschnittlichen als auch bei den maximalen Kreativitätswerten. Allerdings konnten die leistungsstärksten Menschen das Kreativitätsniveau der KI-Chatbots immer noch erreichen oder übertreffen.
- Unterschiede zwischen AI und Menschen: Die Studie ergab, dass die menschlichen Teilnehmer oft unterdurchschnittliche Leistungen erbrachten, weil sie auf halber Strecke der Aufgabe die Aufmerksamkeit verloren. Die KI hingegen führte die Aufgabe ohne Ermüdung aus, was zu einer insgesamt höheren Leistung beitrug.
- Stärken und Schwächen von KI und menschlicher Kreativität: Die Studie geht davon aus, dass der Zugang von KI zu größeren Rechenressourcen ihre hohe durchschnittliche Leistung erklärt. Sie können im Wesentlichen mehr plausible alternative Verwendungsmöglichkeiten für Objekte berechnen, was ihnen eine größere Chance gibt, die ungewöhnlichsten Verwendungsmöglichkeiten herauszufinden.
- Beschränkungen und zukünftige Richtungen: Die Studie räumt Einschränkungen ein, wie z. B. die mangelnde demografische Vielfalt unter den menschlichen Teilnehmern. Außerdem wurde nur ein Kreativitätstest mittleren Alters verwendet, der naturgemäß nur eine begrenzte Reichweite hat.
Forscher entwickeln neue Methoden zum Vergleich von KI und menschlichen Ansätzen bei Tests, Fragen und anderen Aufgaben.
Eine kürzlich durchgeführte Studie ergab, dass ChatGPT die Schüler in folgenden Bereichen übertraf neun von 32 Probanden - ziemlich solide, aber wahrscheinlich gute Nachrichten für die Menschheit.
Wir sind noch eine Generation von KI entfernt, bevor die Technologie uns vollständig besiegt.