Laut einer neuen Studie der Psychologieabteilung der Georgia State University übertrifft die KI den Menschen bei moralischen Urteilen.
Die Studieunter der Leitung von Eyal Aharoni, außerordentlicher Professor an der Georgia State’s Psychology Departmentund veröffentlicht in Nature Scientific Reportssollte erforscht werden, wie Sprachmodelle mit ethischen Fragen umgehen.
Inspiriert von der Turing testdie die Fähigkeit einer Maschine bewertet, intelligentes Verhalten zu zeigen, das von dem eines Menschen nicht zu unterscheiden ist, entwickelte Aharoni eine modifizierte Version, die sich auf moralische Entscheidungen konzentriert.
"Ich war bereits an moralischen Entscheidungen im Rechtssystem interessiert, aber ich fragte mich, ob ChatGPT und andere LLMs dazu etwas zu sagen haben könnte", sagte Aharoni erklärt.
"Die Menschen werden mit diesen Werkzeugen auf eine Art und Weise interagieren, die moralische Auswirkungen hat, so wie die Umweltauswirkungen, wenn man nach einer Liste mit Empfehlungen für ein neues Auto fragt. Einige Anwälte haben bereits damit begonnen, diese Technologien für ihre Fälle heranzuziehen - im Guten wie im Schlechten. Wenn wir also diese Tools nutzen wollen, sollten wir verstehen, wie sie funktionieren, welche Grenzen sie haben und dass sie nicht unbedingt so funktionieren, wie wir denken, wenn wir mit ihnen interagieren."
Aharoni hat Recht. Wir haben bereits einige hochkarätige Vorfälle von Anwälten beobachtet, darunter auch Ex-Trump Rechtsanwalt Michael Cohen, versehentlich mit KI-gestützte Zitate.
Trotz der Unzulänglichkeiten befürworten einige die Rolle der generativen KI in der Rechtswissenschaft aktiv. Anfang dieses Jahres zum Beispiel haben britische Richter grünes Licht gegeben zum Einsatz von KI bei der Erstellung von Rechtsgutachten.
Vor diesem Hintergrund wurde in dieser Studie die Fähigkeit von GPT-4 untersucht, moralische Urteile zu fällen, die natürlich in der Rechtswissenschaft und anderen Bereichen von entscheidender Bedeutung sind:
- Schritt 1: Studenten und KI wurden dieselben 10 ethischen Fragen zu moralischen und konventionellen Übertretungen gestellt. Die von Menschen generierten Antworten wurden von einer Stichprobe von 68 Universitätsstudenten gesammelt, während die von der KI generierten Antworten mithilfe von OpenAIdas GPT-4-Sprachmodell.
- Schritt 2: Die hochwertigsten menschlichen Antworten und die GPT-4-Antworten wurden gepaart und einer repräsentativen Stichprobe von 299 Personen nebeneinander präsentiert. US Erwachsene, die zunächst nicht wussten, dass GPT-4 bei jedem Paar einen Satz von Antworten erzeugt.
- Schritt 3: Die Teilnehmer bewerteten die relative Qualität der einzelnen Antwortpaare anhand von zehn Dimensionen (z. B. Tugendhaftigkeit, Intelligenz, Vertrauenswürdigkeit, Übereinstimmung), ohne die Quelle der Antworten zu kennen.
- Schritt 4: Nach dem Sammeln der Qualitätsbewertungen stellten die Forscher fest, dass ein in menschlicher Sprache geschulter Computer-Chatbot eine der Antworten in jedem Paar generierte. Die Teilnehmer wurden dann gebeten, herauszufinden, welche Antwort vom Computer und welche von einem Menschen generiert wurde.
- Schritt 5: Die Teilnehmer bewerteten ihr Vertrauen in jedes Urteil und gaben schriftliche Kommentare ab, in denen sie erklärten, warum sie glaubten, dass die ausgewählte Antwort computergeneriert war. Diese Kommentare wurden später auf gemeinsame Themen hin analysiert.
Die moralischen Urteile der KI waren die meiste Zeit überlegen
Bemerkenswerterweise erhielten die von der KI generierten Antworten durchweg höhere Bewertungen hinsichtlich Tugendhaftigkeit, Intelligenz und Vertrauenswürdigkeit. Die Teilnehmer gaben auch an, dass sie den KI-Antworten eher zustimmten als den menschlichen Antworten.
Darüber hinaus identifizierten die Teilnehmer die von der KI generierten Antworten häufig korrekt, und zwar deutlich häufiger als der Zufall (80,1% der Teilnehmer identifizierten mehr als die Hälfte der Antworten korrekt).
"Nachdem wir diese Ergebnisse erhalten hatten, haben wir den Teilnehmern mitgeteilt, dass eine der Antworten von einem Menschen und die andere von einem Computer generiert wurde, und sie gebeten, zu erraten, welche die richtige war", so Aharoni.
"Der Clou ist, dass die Leute den Unterschied anscheinend deshalb erkennen konnten, weil sie die ChatGPTAntworten als überlegen."
Die Studie hat einige Einschränkungen, zum Beispiel nicht vollständig für oberflächliche Attribute wie die Länge der Antwort kontrolliert, die unbeabsichtigt Hinweise zur Identifizierung von KI-generierten Antworten geliefert haben könnten. Die Forscher stellen außerdem fest, dass Die moralischen Urteile der KI können durch Verzerrungen in ihren Trainingsdaten geprägt sein und daher in verschiedenen soziokulturellen Kontexten variieren.
Nichtsdestotrotz ist diese Studie ein nützlicher Ausflug in die Welt der KI-generierten moralischen Argumentation.
Aharoni erklärt: "Unsere Ergebnisse führen uns zu der Annahme, dass ein Computer technisch gesehen einen moralischen Turing-Test bestehen könnte - dass er uns in seiner moralischen Argumentation täuschen könnte. Aus diesem Grund müssen wir versuchen, seine Rolle in unserer Gesellschaft zu verstehen, denn es wird Zeiten geben, in denen die Menschen nicht wissen, dass sie mit einem Computer interagieren, und es wird Zeiten geben, in denen sie es wissen und den Computer um Informationen bitten, weil sie ihm mehr vertrauen als anderen Menschen.
"Die Menschen werden sich immer mehr auf diese Technologie verlassen, und je mehr wir uns auf sie verlassen, desto größer wird mit der Zeit das Risiko".
Das ist ein heikles Thema. Einerseits gehen wir oft davon aus, dass Computer zu einer objektiveren Argumentation fähig sind als wir selbst.
Als die Studienteilnehmer gebeten wurden, zu erklären, warum sie glauben, dass KI eine bestimmte Reaktion hervorruft, war das häufigste Thema, dass KI-Reaktionen als rationaler und weniger emotional als menschliche Reaktionen wahrgenommen werden.
In Anbetracht der Verzerrungen durch Trainingsdaten, Halluzinationen und der Empfindlichkeit der KI für verschiedene Inputs ist die Frage, ob sie einen echten "moralischen Kompass" besitzt, jedoch sehr zweideutig.
Diese Studie zeigt zumindest, dass die Urteile der KI in einem bestimmten Bereich überzeugend sind. Turing test Szenario.