Ny studie forsøker å tilpasse AI til menneskelige verdier

1. april 2024

  • Forskere utviklet en metode for å utlede AI-verdier fra menneskelige deltakere
  • Dette skapte et robust, rettferdig og gjennomsiktig AI-system som tjente dem med ulike synspunkter
  • Forskerne hevder at deres tilnærming er bedre enn tidligere forsøk på å tilpasse AI til menneskelige verdier
AI-verdier

Forskere fra Meaning Alignment Institute har foreslått en ny tilnærming, Moral Graph Elicitation (MGE), for å tilpasse AI-systemer til menneskelige verdier.

Etter hvert som kunstig intelligens blir mer avansert og integrert i hverdagen vår, er det avgjørende å sikre at den tjener og representerer alle på en rettferdig måte. Det er imidlertidhans studie hevder at det å tilpasse AI til brukerens mål alene ikke garanterer sikkerhet.

 "AI-systemer vil bli tatt i bruk i sammenhenger der blind etterlevelse av operatørens intensjon kan forårsake skade som et biprodukt. Dette kommer tydeligst til syne i miljøer med konkurransedynamikk, som politiske kampanjer eller forvaltning av finansielle eiendeler", hevder forskerne. 

Dette skyldes at AI-modeller er utformet for å tjene brukeren. Hvis brukeren instruerer en modell til å tjene skumle formål, kan modellens ønske om å tjene brukeren føre til at den omgår sikkerhetsmekanismer og adlyder.

En løsning er å "impregnere" AI med en rekke verdier som den konsulterer hver gang den blir bedt om det.

Spørsmålet er hvor disse verdiene kommer fra. Og kan de representere folk på en rettferdig måte?

For å løse disse problemene foreslo forskerne å tilpasse AI til en dypere representasjon av menneskelige verdier gjennom MGE.

MGE-metoden består av to hovedkomponenter: verdikort og den moralske grafen.

Disse danner et innrettingsmål for trening av maskinlæringsmodeller.

  • Verdikort fanger opp hva som er viktig for en person i en bestemt situasjon. De består av "konstitutive oppmerksomhetspolicyer" (CAP), som er de tingene en person legger vekt på når han eller hun tar et meningsfylt valg. Når man for eksempel gir råd til en venn, kan man fokusere på å forstå følelsene deres, foreslå nyttige ressurser eller vurdere de potensielle utfallene av ulike valg.
  • Den moralske grafen representerer forholdet mellom verdikortene visuelt, og viser hvilke verdier som er mest innsiktsfulle eller anvendelige i en gitt kontekst. For å konstruere den moralske grafen sammenligner deltakerne ulike verdikort og finner ut hvilke de mener gir den beste veiledningen i en bestemt situasjon. På denne måten utnytter de deltakernes kollektive visdom til å identifisere de sterkeste og mest anerkjente verdiene for hver kontekst.

For å teste MGE-metoden gjennomførte forskerne en studie med 500 amerikanere som brukte prosessen til å utforske tre kontroversielle temaer: abort, foreldrerollen og våpnene som ble brukt i Capitol-opprøret 6. januar.

Resultatene var lovende: 89,1% av deltakerne følte seg godt representert i prosessen, og 89% mente at den endelige moralgrafen var rettferdig, selv om deres verdi ikke ble stemt frem som den klokeste.

Studien skisserer også seks kriterier som et tilpasningsmål må oppfylle for å forme modellatferd i tråd med menneskelige verdier: Det bør være finkornet, generaliserbart, skalerbart, robust, legitimt og etterprøvbart. Forskerne hevder at den moralske grafen som MGE produserer, oppfyller disse kriteriene på en god måte.

Denne studien foreslår en lignende tilnærming som Anthropics Kollektiv konstitusjonell AI, som også henter inn verdier for AI-tilpasning.

Forfatteren av studien, Joe Edelman, sa imidlertid på X: "Vår tilnærming, MGE, utkonkurrerer alternativer som CCAI med @anthropic på legitimitet i en casestudie, og gir robusthet mot ideologisk retorikk. 89% er til og med enige i at de vinnende verdiene var rettferdige, selv om deres egen verdi ikke vant!"

Begrensninger

Det finnes begrensninger for AI-tilnærminger som henter verdier fra publikum.

For eksempel har avvikende synspunkter vært en integrert del av samfunnets beslutningsprosesser i århundrer, og historien har vist at majoriteten ofte kan adoptere minoritetens avvikende synspunkter. Eksempler på dette er Darwins evolusjonsteori og kampen for å avskaffe slaveriet og gi kvinner stemmerett.

Selv om direkte innspill fra offentligheten er demokratisk, kan det også føre til populisme, der flertallet kan overstyre mindretallets meninger eller se bort fra ekspertråd.

En annen utfordring er å balansere globale eller universalistiske og lokale eller relativistiske kulturelle verdier. Prinsipper som er allment akseptert i én kultur eller region, kan være kontroversielle i en annen.

AI-konstitusjoner kan forsterke vestlige verdier og potensielt undergrave synspunktene og ideene til dem som befinner seg i periferien.

Selv om denne nye studien erkjenner begrensninger og behovet for videreutvikling, gir den en annen strategi for å skape AI-systemer som er i tråd med menneskelige verdier.

Hvert forsøk teller hvis sentralisert AI skal tjene alle på en rettferdig måte i fremtiden. 

Bli med i fremtiden


ABONNER I DAG

Tydelig, kortfattet og omfattende. Få et grep om AI-utviklingen med DagligAI

Sam Jeans

Sam er en vitenskaps- og teknologiskribent som har jobbet i ulike oppstartsbedrifter innen kunstig intelligens. Når han ikke skriver, leser han medisinske tidsskrifter eller graver seg gjennom esker med vinylplater.

×

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI

Meld deg på vårt ukentlige nyhetsbrev og få eksklusiv tilgang til DailyAIs nyeste e-bok: "Mastering AI Tools: Din 2024-guide til økt produktivitet".

*Ved å abonnere på vårt nyhetsbrev aksepterer du vår Retningslinjer for personvern og vår Vilkår og betingelser