Forskare från Meaning Alignment Institute har föreslagit ett nytt tillvägagångssätt, Moral Graph Elicitation (MGE), för att anpassa AI-system till mänskliga värderingar.
I takt med att AI blir allt mer avancerat och integreras i våra dagliga liv är det av yttersta vikt att säkerställa att det tjänar och representerar alla på ett rättvist sätt. Men denhans studie menar att det inte räcker med att anpassa AI till användarens mål för att garantera säkerheten.
"AI-system kommer att användas i sammanhang där blind följsamhet till operatörens avsikt kan orsaka skada som en biprodukt. Detta kan ses tydligast i miljöer med konkurrensdynamik, som politiska kampanjer eller hantering av finansiella tillgångar", menar forskarna.
Detta beror på att AI-modeller är utformade för att tjäna användaren. Om användaren instruerar en modell mot skadliga syften kan modellens drivkraft att tjäna användaren leda till att den kringgår skyddsräcken och lyder.
En lösning är att "impregnera" AI med en serie värden som den konsulterar varje gång den uppmanas till det.
Frågan är varifrån dessa värderingar kommer? Och kan de representera människor på ett rättvist sätt?
"Vad är mänskliga värderingar och hur anpassar vi oss till dem?"
Vi är mycket glada över att kunna publicera vår nya rapport om värdeorientering, som vi har författat tillsammans med @ryan_t_lowe och finansierad av @openai.
📝: https://t.co/iioFKmrDZA pic.twitter.com/NSJa8dbcrM
- Joe Edelman (@edelwax) 29 mars 2024
För att lösa dessa problem föreslog forskarna att AI skulle anpassas till en djupare representation av mänskliga värderingar genom MGE.
MGE-metoden har två huvudkomponenter: värdekort och den moraliska grafen.
Dessa utgör ett inriktningsobjekt för utbildning av maskininlärningsmodeller.
- Värdekort fångar upp vad som är viktigt för en person i en specifik situation. De består av "konstitutiva uppmärksamhetspolicyer" (CAP), som är de saker som en person uppmärksammar när han eller hon gör ett meningsfullt val. När man ger råd till en vän kan man t.ex. fokusera på att förstå dennes känslor, föreslå användbara resurser eller överväga de potentiella resultaten av olika val.
- Den moraliska grafen representerar visuellt relationerna mellan värdekorten och visar vilka värden som är mer insiktsfulla eller tillämpliga i ett visst sammanhang. För att konstruera den moraliska grafen jämför deltagarna olika värdekort och avgör vilka de anser erbjuder klokare vägledning för en viss situation. På så sätt utnyttjas deltagarnas kollektiva visdom för att identifiera de starkaste och mest allmänt erkända värderingarna i varje sammanhang.
För att testa MGE-metoden genomförde forskarna en studie med 500 amerikaner som använde processen för att utforska tre kontroversiella ämnen: abort, föräldraskap och de vapen som användes vid upploppet på Capitolium den 6 januari.
Resultaten var lovande. 89,1% av deltagarna kände sig välrepresenterade i processen och 89% tyckte att den slutliga moralgrafen var rättvis, även om deras värde inte röstades fram som det klokaste.
I studien beskrivs också sex kriterier som ett anpassningsobjekt måste uppfylla för att forma modellbeteende enligt mänskliga värderingar: det ska vara finkornigt, generaliserbart, skalbart, robust, legitimt och granskningsbart. Forskarna hävdar att den moraliska graf som produceras av MGE fungerar bra enligt dessa kriterier.
Denna studie föreslår ett liknande tillvägagångssätt som Anthropics Kollektiv Konstitutiv AI, som också crowdsourcar värden för AI-anpassning.
Studieförfattaren Joe Edelman sa dock på X: "Vår metod, MGE, överträffar alternativ som CCAI by @anthropic på legitimitet i en fallstudie och erbjuder robusthet mot ideologisk retorik. 89% håller till och med med om att de vinnande värdena var rättvisa, även om deras eget värde inte vann!"
Vår metod, MGE, överträffar alternativ som CCAI med @anthropic på legitimitet i en fallstudie, och erbjuder robusthet mot ideologisk retorik.
89% håller till och med med om att de vinnande värdena var rättvisa, även om deras eget värde inte vann! pic.twitter.com/sGgLCUtwzN
- Joe Edelman (@edelwax) 29 mars 2024
Begränsningar
Det finns begränsningar för metoder för AI-anpassning som bygger på crowdsourcing av värden från allmänheten.
Till exempel har avvikande åsikter varit en integrerad del av samhällets beslutsfattande i århundraden, och historien har visat att majoriteten ofta kan anta minoritetens avvikande synpunkter. Som exempel kan nämnas Darwins evolutionsteori och kampen för att avskaffa slaveriet och ge kvinnor rösträtt.
Även om direkt medverkan från allmänheten är demokratisk kan det leda till populism, där majoriteten kan åsidosätta minoritetens åsikter eller bortse från expertråd.
En annan utmaning är att balansera globala eller universalistiska och lokala eller relativistiska kulturella värderingar. Principer som är allmänt accepterade i en kultur eller region kan vara kontroversiella i en annan.
AI-konstitutioner skulle kunna förstärka västerländska värderingar och potentiellt undergräva åsikter och idéer hos dem som befinner sig i periferin.
Även om denna nya studie erkänner begränsningar och behovet av ytterligare utveckling, ger den en annan strategi för att skapa AI-system som överensstämmer med mänskliga värderingar.
Varje försök räknas om centraliserad AI ska kunna tjäna alla på ett rättvist sätt i framtiden.