Forskere fra Meaning Alignment Institute har foreslått en ny tilnærming, Moral Graph Elicitation (MGE), for å tilpasse AI-systemer til menneskelige verdier.
Etter hvert som kunstig intelligens blir mer avansert og integrert i hverdagen vår, er det avgjørende å sikre at den tjener og representerer alle på en rettferdig måte. Det er imidlertidhans studie hevder at det å tilpasse AI til brukerens mål alene ikke garanterer sikkerhet.
"AI-systemer vil bli tatt i bruk i sammenhenger der blind etterlevelse av operatørens intensjon kan forårsake skade som et biprodukt. Dette kommer tydeligst til syne i miljøer med konkurransedynamikk, som politiske kampanjer eller forvaltning av finansielle eiendeler", hevder forskerne.
Dette skyldes at AI-modeller er utformet for å tjene brukeren. Hvis brukeren instruerer en modell til å tjene skumle formål, kan modellens ønske om å tjene brukeren føre til at den omgår sikkerhetsmekanismer og adlyder.
En løsning er å "impregnere" AI med en rekke verdier som den konsulterer hver gang den blir bedt om det.
Spørsmålet er hvor disse verdiene kommer fra. Og kan de representere folk på en rettferdig måte?
"Hva er menneskelige verdier, og hvordan innretter vi oss etter dem?"
Vi er veldig glade for å kunne lansere vår nye artikkel om verditilpasning, skrevet i samarbeid med @ryan_t_lowe og finansiert av @openai.
📝: https://t.co/iioFKmrDZA pic.twitter.com/NSJa8dbcrM
- Joe Edelman (@edelwax) 29. mars 2024
For å løse disse problemene foreslo forskerne å tilpasse AI til en dypere representasjon av menneskelige verdier gjennom MGE.
MGE-metoden består av to hovedkomponenter: verdikort og den moralske grafen.
Disse danner et innrettingsmål for trening av maskinlæringsmodeller.
- Verdikort fanger opp hva som er viktig for en person i en bestemt situasjon. De består av "konstitutive oppmerksomhetspolicyer" (CAP), som er de tingene en person legger vekt på når han eller hun tar et meningsfylt valg. Når man for eksempel gir råd til en venn, kan man fokusere på å forstå følelsene deres, foreslå nyttige ressurser eller vurdere de potensielle utfallene av ulike valg.
- Den moralske grafen representerer forholdet mellom verdikortene visuelt, og viser hvilke verdier som er mest innsiktsfulle eller anvendelige i en gitt kontekst. For å konstruere den moralske grafen sammenligner deltakerne ulike verdikort og finner ut hvilke de mener gir den beste veiledningen i en bestemt situasjon. På denne måten utnytter de deltakernes kollektive visdom til å identifisere de sterkeste og mest anerkjente verdiene for hver kontekst.
For å teste MGE-metoden gjennomførte forskerne en studie med 500 amerikanere som brukte prosessen til å utforske tre kontroversielle temaer: abort, foreldrerollen og våpnene som ble brukt i Capitol-opprøret 6. januar.
Resultatene var lovende: 89,1% av deltakerne følte seg godt representert i prosessen, og 89% mente at den endelige moralgrafen var rettferdig, selv om deres verdi ikke ble stemt frem som den klokeste.
Studien skisserer også seks kriterier som et tilpasningsmål må oppfylle for å forme modellatferd i tråd med menneskelige verdier: Det bør være finkornet, generaliserbart, skalerbart, robust, legitimt og etterprøvbart. Forskerne hevder at den moralske grafen som MGE produserer, oppfyller disse kriteriene på en god måte.
Denne studien foreslår en lignende tilnærming som Anthropics Kollektiv konstitusjonell AI, som også henter inn verdier for AI-tilpasning.
Forfatteren av studien, Joe Edelman, sa imidlertid på X: "Vår tilnærming, MGE, utkonkurrerer alternativer som CCAI med @anthropic på legitimitet i en casestudie, og gir robusthet mot ideologisk retorikk. 89% er til og med enige i at de vinnende verdiene var rettferdige, selv om deres egen verdi ikke vant!"
Vår tilnærming, MGE, utkonkurrerer alternativer som CCAI med @antropisk om legitimitet i en casestudie, og gir robusthet mot ideologisk retorikk.
89% er til og med enig i at vinnerverdiene var rettferdige, selv om deres egen verdi ikke vant! pic.twitter.com/sGgLCUtwzN
- Joe Edelman (@edelwax) 29. mars 2024
Begrensninger
Det finnes begrensninger for AI-tilnærminger som henter verdier fra publikum.
For eksempel har avvikende synspunkter vært en integrert del av samfunnets beslutningsprosesser i århundrer, og historien har vist at majoriteten ofte kan adoptere minoritetens avvikende synspunkter. Eksempler på dette er Darwins evolusjonsteori og kampen for å avskaffe slaveriet og gi kvinner stemmerett.
Selv om direkte innspill fra offentligheten er demokratisk, kan det også føre til populisme, der flertallet kan overstyre mindretallets meninger eller se bort fra ekspertråd.
En annen utfordring er å balansere globale eller universalistiske og lokale eller relativistiske kulturelle verdier. Prinsipper som er allment akseptert i én kultur eller region, kan være kontroversielle i en annen.
AI-konstitusjoner kan forsterke vestlige verdier og potensielt undergrave synspunktene og ideene til dem som befinner seg i periferien.
Selv om denne nye studien erkjenner begrensninger og behovet for videreutvikling, gir den en annen strategi for å skape AI-systemer som er i tråd med menneskelige verdier.
Hvert forsøk teller hvis sentralisert AI skal tjene alle på en rettferdig måte i fremtiden.