Ny studie försöker anpassa AI till mänskliga värderingar som hämtats från massor av människor

1 april 2024

  • Forskare har tagit fram en metod för att härleda AI-värden från mänskliga deltagare
  • Detta skapade ett robust, rättvist och transparent AI-system som tjänade dem som hade olika åsikter
  • Forskarna hävdar att deras metod är bättre än tidigare försök att anpassa AI till mänskliga värderingar
AI-värden

Forskare från Meaning Alignment Institute har föreslagit ett nytt tillvägagångssätt, Moral Graph Elicitation (MGE), för att anpassa AI-system till mänskliga värderingar.

I takt med att AI blir allt mer avancerat och integreras i våra dagliga liv är det av yttersta vikt att säkerställa att det tjänar och representerar alla på ett rättvist sätt. Men denhans studie menar att det inte räcker med att anpassa AI till användarens mål för att garantera säkerheten.

 "AI-system kommer att användas i sammanhang där blind följsamhet till operatörens avsikt kan orsaka skada som en biprodukt. Detta kan ses tydligast i miljöer med konkurrensdynamik, som politiska kampanjer eller hantering av finansiella tillgångar", menar forskarna. 

Detta beror på att AI-modeller är utformade för att tjäna användaren. Om användaren instruerar en modell mot skadliga syften kan modellens drivkraft att tjäna användaren leda till att den kringgår skyddsräcken och lyder.

En lösning är att "impregnera" AI med en serie värden som den konsulterar varje gång den uppmanas till det.

Frågan är varifrån dessa värderingar kommer? Och kan de representera människor på ett rättvist sätt?

För att lösa dessa problem föreslog forskarna att AI skulle anpassas till en djupare representation av mänskliga värderingar genom MGE.

MGE-metoden har två huvudkomponenter: värdekort och den moraliska grafen.

Dessa utgör ett inriktningsobjekt för utbildning av maskininlärningsmodeller.

  • Värdekort fångar upp vad som är viktigt för en person i en specifik situation. De består av "konstitutiva uppmärksamhetspolicyer" (CAP), som är de saker som en person uppmärksammar när han eller hon gör ett meningsfullt val. När man ger råd till en vän kan man t.ex. fokusera på att förstå dennes känslor, föreslå användbara resurser eller överväga de potentiella resultaten av olika val.
  • Den moraliska grafen representerar visuellt relationerna mellan värdekorten och visar vilka värden som är mer insiktsfulla eller tillämpliga i ett visst sammanhang. För att konstruera den moraliska grafen jämför deltagarna olika värdekort och avgör vilka de anser erbjuder klokare vägledning för en viss situation. På så sätt utnyttjas deltagarnas kollektiva visdom för att identifiera de starkaste och mest allmänt erkända värderingarna i varje sammanhang.

För att testa MGE-metoden genomförde forskarna en studie med 500 amerikaner som använde processen för att utforska tre kontroversiella ämnen: abort, föräldraskap och de vapen som användes vid upploppet på Capitolium den 6 januari.

Resultaten var lovande. 89,1% av deltagarna kände sig välrepresenterade i processen och 89% tyckte att den slutliga moralgrafen var rättvis, även om deras värde inte röstades fram som det klokaste.

I studien beskrivs också sex kriterier som ett anpassningsobjekt måste uppfylla för att forma modellbeteende enligt mänskliga värderingar: det ska vara finkornigt, generaliserbart, skalbart, robust, legitimt och granskningsbart. Forskarna hävdar att den moraliska graf som produceras av MGE fungerar bra enligt dessa kriterier.

Denna studie föreslår ett liknande tillvägagångssätt som Anthropics Kollektiv Konstitutiv AI, som också crowdsourcar värden för AI-anpassning.

Studieförfattaren Joe Edelman sa dock på X: "Vår metod, MGE, överträffar alternativ som CCAI by @anthropic på legitimitet i en fallstudie och erbjuder robusthet mot ideologisk retorik. 89% håller till och med med om att de vinnande värdena var rättvisa, även om deras eget värde inte vann!"

Begränsningar

Det finns begränsningar för metoder för AI-anpassning som bygger på crowdsourcing av värden från allmänheten.

Till exempel har avvikande åsikter varit en integrerad del av samhällets beslutsfattande i århundraden, och historien har visat att majoriteten ofta kan anta minoritetens avvikande synpunkter. Som exempel kan nämnas Darwins evolutionsteori och kampen för att avskaffa slaveriet och ge kvinnor rösträtt.

Även om direkt medverkan från allmänheten är demokratisk kan det leda till populism, där majoriteten kan åsidosätta minoritetens åsikter eller bortse från expertråd.

En annan utmaning är att balansera globala eller universalistiska och lokala eller relativistiska kulturella värderingar. Principer som är allmänt accepterade i en kultur eller region kan vara kontroversiella i en annan.

AI-konstitutioner skulle kunna förstärka västerländska värderingar och potentiellt undergräva åsikter och idéer hos dem som befinner sig i periferin.

Även om denna nya studie erkänner begränsningar och behovet av ytterligare utveckling, ger den en annan strategi för att skapa AI-system som överensstämmer med mänskliga värderingar.

Varje försök räknas om centraliserad AI ska kunna tjäna alla på ett rättvist sätt i framtiden. 

Bli en del av framtiden


PRENUMERERA IDAG

Tydlig, kortfattad och heltäckande. Få grepp om AI-utvecklingen med DagligaAI

Sam Jeans

Sam är en vetenskaps- och teknikskribent som har arbetat i olika AI-startups. När han inte skriver läser han medicinska tidskrifter eller gräver igenom lådor med vinylskivor.

×

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI

Registrera dig för vårt veckovisa nyhetsbrev och få exklusiv tillgång till DailyAI:s senaste e-bok: "Mastering AI Tools: Din 2024-guide till förbättrad produktivitet".

*Genom att prenumerera på vårt nyhetsbrev accepterar du vår Integritetspolicy och våra Villkor och anvisningar