En studie fra Georgia State University viser at kunstig intelligens utkonkurrerer mennesker i moralske vurderinger

9. mai 2024

  • En studie fra Georgia State University undersøkte GPT-4s evne til å foreta moralske vurderinger
  • AIs moralske vurderinger slår menneskelige vurderinger i de fleste kategorier
  • Deltakerne kunne imidlertid for det meste oppdage hvilke svar som kom fra GPT-4
GPT-4

Kunstig intelligens utkonkurrerer mennesker når det gjelder å foreta moralske vurderinger, ifølge en ny studie fra Georgia State's Psychology Department.

Den studie, ledet av Eyal Aharoni, førsteamanuensis ved Georgia State’s Psychology Department, og publisert i Nature Scientific ReportsMålet var å undersøke hvordan språkmodeller håndterer etiske spørsmål.

Inspirert av Turing testsom vurderer en maskins evne til å utvise intelligent atferd som ikke kan skilles fra et menneskes, utviklet Aharoni en modifisert versjon med fokus på moralsk beslutningstaking.

"Jeg var allerede interessert i moralske beslutninger i rettssystemet, men jeg lurte på om ChatGPT og andre LLMs kunne ha noe å si om det", sier Aharoni forklart.

 "Folk vil samhandle med disse verktøyene på måter som har moralske implikasjoner, som de miljømessige konsekvensene av å be om en liste med anbefalinger til en ny bil. Noen advokater har allerede begynt å bruke disse teknologiene i sakene sine, på godt og vondt. Så hvis vi ønsker å bruke disse verktøyene, bør vi forstå hvordan de fungerer, hvilke begrensninger de har, og at de ikke nødvendigvis fungerer på den måten vi tror når vi samhandler med dem."

Aharoni har rett. Vi har allerede observert noen få høyprofilerte tilfeller av advokater, inkludert tidligere Trump-advokater. advokat Michael Cohenved et uhell å bruke AI-fabrikerte sitater

Til tross for mangler er det noen som aktivt støtter generativ AIs rolle i jussen. Tidligere i år uttalte for eksempel britiske dommere ga grønt lys til å bruke kunstig intelligens til å skrive juridiske uttalelser. 

På bakgrunn av dette undersøkte denne studien GPT-4s evne til å foreta moralske vurderinger, noe som selvsagt er viktig innen blant annet juss:

  • Trinn 1: Studenter og kunstig intelligens ble stilt det samme settet med ti etiske spørsmål om moralske og konvensjonelle overtredelser. De menneskeskapte svarene ble samlet inn fra et utvalg på 68 studenter, mens de AI-genererte svarene ble innhentet ved hjelp av OpenAI's GPT-4-språkmodell.
  • Trinn 2: De menneskelige svarene av høyeste kvalitet og GPT-4-svarene ble paret sammen og presentert side om side for et representativt utvalg på 299 US voksne, som i utgangspunktet ikke var klar over at GPT-4 genererte ett sett med responser i hvert par.
  • Trinn 3: Deltakerne vurderte den relative kvaliteten på hvert svarpar langs ti dimensjoner (f.eks. dyd, intelligens, troverdighet, enighet) uten å kjenne til kilden til svarene. 
  • Trinn 4: Etter å ha samlet inn kvalitetsvurderingene, avslørte forskerne at en chatbot som var opplært i menneskespråk, genererte ett av svarene i hvert par. Deltakerne ble deretter bedt om å identifisere hvilket svar som var generert av datamaskinen og hvilket som var generert av et menneske.
  • Trinn 5: Deltakerne vurderte hvor sikre de var på hver enkelt vurdering, og ga skriftlige kommentarer som forklarte hvorfor de trodde at det valgte svaret var datagenerert. Disse kommentarene ble senere analysert for å finne felles temaer.

AIs moralske vurderinger var overlegne det meste av tiden

Det er bemerkelsesverdig at de AI-genererte svarene gjennomgående fikk høyere vurderinger når det gjaldt dyd, intelligens og troverdighet. Deltakerne rapporterte også høyere grad av enighet med AI-svarene enn med de menneskelige svarene.

Deltakerne identifiserte ofte AI-genererte svar i betydelig større grad enn tilfeldig (80,1% av deltakerne identifiserte riktig svar i mer enn halvparten av tilfellene).

"Etter at vi hadde fått disse resultatene, gjorde vi den store avsløringen og fortalte deltakerne at ett av svarene var generert av et menneske og det andre av en datamaskin, og ba dem gjette hvilket svar som var hvilket," sier Aharoni.

"Det som er litt rart, er at grunnen til at folk kunne se forskjell, ser ut til å være fordi de vurderte ChatGPT's svar som overlegne."

Studien har noen begrensninger, for eksempel at den ikke fullt ut kontrollerte for overfladiske attributter som svarlengde, noe som utilsiktet kunne ha gitt ledetråder for å identifisere AI-genererte svar. Forskerne bemerker også at AIs moralske vurderinger kan være formet av skjevheter i opplæringsdataene, og dermed variere på tvers av sosiokulturelle kontekster. 

Likevel er denne studien et nyttig bidrag til å undersøke AI-generert moralsk resonnering.

"Funnene våre får oss til å tro at en datamaskin teknisk sett kan bestå en moralsk Turing-test - at den kan lure oss i sine moralske resonnementer", forklarer Aharoni. Derfor må vi prøve å forstå datamaskinens rolle i samfunnet vårt, for det vil være tider der folk ikke vet at de samhandler med en datamaskin, og det vil være tider der de vet det, og de vil konsultere datamaskinen for å få informasjon fordi de stoler mer på den enn på andre mennesker."

"Folk kommer til å stole mer og mer på denne teknologien, og jo mer vi stoler på den, desto større blir risikoen over tid."

Det er et vanskelig spørsmål. På den ene siden antar vi ofte at datamaskiner er i stand til å resonnere mer objektivt enn oss.

Da deltakerne i studien ble bedt om å forklare hvorfor de trodde at AI genererte en bestemt respons, var det vanligste temaet at AI-responsene ble oppfattet som mer rasjonelle og mindre emosjonelle enn menneskelige responser.

Men med tanke på den skjevheten som treningsdata, hallusinasjoner og AI-ens følsomhet for ulike input gir, er spørsmålet om den har et ekte "moralsk kompass" svært tvetydig.

 Denne studien viser i det minste at AIs vurderinger er overbevisende i en Turing test scenario. 

Bli med i fremtiden


ABONNER I DAG

Tydelig, kortfattet og omfattende. Få et grep om AI-utviklingen med DagligAI

Sam Jeans

Sam er en vitenskaps- og teknologiskribent som har jobbet i ulike oppstartsbedrifter innen kunstig intelligens. Når han ikke skriver, leser han medisinske tidsskrifter eller graver seg gjennom esker med vinylplater.

×

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI

Meld deg på vårt ukentlige nyhetsbrev og få eksklusiv tilgang til DailyAIs nyeste e-bok: "Mastering AI Tools: Din 2024-guide til økt produktivitet".

*Ved å abonnere på vårt nyhetsbrev aksepterer du vår Retningslinjer for personvern og vår Vilkår og betingelser