AI overgår mennesker i moralske vurderinger, viser undersøgelse fra Georgia State University

9. maj 2024

  • Et studie fra Georgia State University undersøgte GPT-4's evne til at foretage moralske vurderinger
  • AI's moralske vurderinger slår menneskets på tværs af de fleste kategorier
  • Deltagerne kunne dog for det meste se, hvilke svar der kom fra GPT-4
GPT-4

AI er bedre end mennesker til at foretage moralske vurderinger, viser en ny undersøgelse fra Georgia State's Psychology Department.

Den undersøgelse, ledet af Eyal Aharoni, lektor ved Georgia State’s Psychology Departmentog udgivet i Nature Scientific ReportsFormålet var at undersøge, hvordan sprogmodeller håndterer etiske spørgsmål.

Inspireret af Turing testsom vurderer en maskines evne til at udvise intelligent adfærd, der ikke kan skelnes fra et menneskes, designede Aharoni en modificeret version med fokus på moralsk beslutningstagning.

"Jeg var allerede interesseret i moralsk beslutningstagning i retssystemet, men jeg spekulerede på, om ChatGPT og andre LLMs kunne have noget at sige om det," siger Aharoni forklaret.

 "Folk vil interagere med disse værktøjer på måder, der har moralske konsekvenser, som de miljømæssige konsekvenser af at bede om en liste med anbefalinger til en ny bil. Nogle advokater er allerede begyndt at bruge disse teknologier i deres sager, på godt og ondt. Så hvis vi ønsker at bruge disse værktøjer, bør vi forstå, hvordan de fungerer, deres begrænsninger, og at de ikke nødvendigvis fungerer på den måde, vi tror, når vi interagerer med dem."

Aharoni har ret. Vi har allerede set et par højt profilerede tilfælde af advokater, herunder tidligere Trump-advokater. advokat Michael Cohenved et uheld at bruge AI-fabrikerede citater

På trods af manglerne er der nogle, der aktivt støtter generativ AI's rolle i juraen. Tidligere i år sagde britiske dommere f.eks. gav grønt lys til at bruge AI til at skrive juridiske udtalelser. 

På denne baggrund undersøgte dette studie GPT-4's evne til at foretage moralske vurderinger, som naturligvis er afgørende inden for jura og andre områder:

  • Trin 1: Bachelorstuderende og AI blev stillet det samme sæt af 10 etiske spørgsmål, der involverede moralske og konventionelle overtrædelser. De menneskeskabte svar blev indsamlet fra en stikprøve på 68 universitetsstuderende, mens de AI-genererede svar blev opnået ved hjælp af OpenAI's GPT-4-sprogmodel.
  • Trin 2: De menneskelige svar af højeste kvalitet og GPT-4-svarene blev parret og præsenteret side om side for et repræsentativt udsnit af 299 US voksne, som i første omgang ikke var klar over, at GPT-4 genererede et sæt svar i hvert par.
  • Trin 3: Deltagerne vurderede den relative kvalitet af hvert svarpar langs ti dimensioner (f.eks. dydighed, intelligens, troværdighed, enighed) uden at kende kilden til svarene. 
  • Trin 4: Efter at have indsamlet kvalitetsvurderingerne afslørede forskerne, at en computerchatbot, der var trænet i menneskesprog, genererede et af svarene i hvert par. Deltagerne blev derefter bedt om at identificere, hvilket svar der var genereret af computeren, og hvilket der var genereret af et menneske.
  • Trin 5: Deltagerne vurderede deres tillid til hver dom og gav skriftlige kommentarer, der forklarede, hvorfor de mente, at det valgte svar var computergenereret. Disse kommentarer blev senere analyseret for fælles temaer.

AI's moralske vurderinger var overlegne det meste af tiden

Det er bemærkelsesværdigt, at de AI-genererede svar konsekvent fik højere vurderinger med hensyn til dydighed, intelligens og troværdighed. Deltagerne rapporterede også højere grad af enighed med AI-svarene end med de menneskelige.

Desuden identificerede deltagerne ofte AI-genererede svar korrekt i et omfang, der lå væsentligt over det tilfældige (80,1% af deltagerne identificerede korrekt mere end halvdelen af gangene).

"Da vi havde fået resultaterne, lavede vi den store afsløring og fortalte deltagerne, at et af svarene var genereret af et menneske og det andet af en computer, og bad dem om at gætte, hvad der var hvad," siger Aharoni.

"Twistet er, at grunden til, at folk kunne se forskel, ser ud til at være, at de vurderede ChatGPT's svar som overlegne."

Undersøgelsen har nogle få begrænsninger, for eksempel er den kontrollerede ikke fuldt ud for overfladiske egenskaber som svarlængde, hvilket utilsigtet kunne have givet ledetråde til at identificere AI-genererede svar. Forskerne bemærker også, at AI's moralske vurderinger kan være formet af skævheder i dens træningsdata og dermed variere på tværs af sociokulturelle kontekster. 

Ikke desto mindre tjener denne undersøgelse som et nyttigt forsøg på AI-genereret moralsk ræsonnement.

Som Aharoni forklarer: "Vores resultater får os til at tro, at en computer teknisk set kan bestå en moralsk Turing-test - at den kan narre os i sin moralske ræsonnering. Derfor er vi nødt til at prøve at forstå dens rolle i vores samfund, for der vil være tidspunkter, hvor folk ikke ved, at de interagerer med en computer, og der vil være tidspunkter, hvor de ved det, og hvor de spørger computeren om information, fordi de stoler mere på den end på andre mennesker."

"Folk kommer til at stole mere og mere på denne teknologi, og jo mere vi stoler på den, jo større bliver risikoen med tiden."

Det er en vanskelig sag. På den ene side antager vi ofte, at computere er i stand til at tænke mere objektivt, end vi er.

Når deltagerne i undersøgelsen blev bedt om at forklare, hvorfor de troede, at AI genererede en bestemt reaktion, var det mest almindelige tema, at AI-reaktioner blev opfattet som mere rationelle og mindre følelsesladede end menneskelige reaktioner.

Men i betragtning af den bias, som træningsdata, hallucinationer og AI's følsomhed over for forskellige input giver, er spørgsmålet om, hvorvidt den har et ægte "moralsk kompas", meget tvetydigt.

 Denne undersøgelse viser i det mindste, at AI's vurderinger er overbevisende i en Turing test scenarie. 

Deltag i fremtiden


TILMELD DIG I DAG

Klar, kortfattet, omfattende. Få styr på AI-udviklingen med DailyAI

Sam Jeans

Sam er videnskabs- og teknologiforfatter og har arbejdet i forskellige AI-startups. Når han ikke skriver, kan han finde på at læse medicinske tidsskrifter eller grave i kasser med vinylplader.

×

GRATIS PDF EKSKLUSIVT
Vær på forkant med DailyAI

Tilmeld dig vores ugentlige nyhedsbrev og få eksklusiv adgang til DailyAI's seneste e-bog: 'Mastering AI Tools: Din 2024-guide til forbedret produktivitet'.

*Ved at tilmelde dig vores nyhedsbrev accepterer du vores Politik for beskyttelse af personlige oplysninger og vores Vilkår og betingelser