Forskere fra Meaning Alignment Institute har foreslået en ny tilgang, Moral Graph Elicitation (MGE), til at tilpasse AI-systemer til menneskelige værdier.
Efterhånden som AI bliver mere avanceret og integreret i vores hverdag, er det vigtigt at sikre, at den tjener og repræsenterer alle retfærdigt. Men dethans undersøgelse hævder, at tilpasning af AI til brugerens mål alene ikke garanterer sikkerhed.
"AI-systemer vil blive anvendt i sammenhænge, hvor blind overholdelse af operatørens hensigt kan forårsage skade som et biprodukt. Det ses tydeligst i miljøer med konkurrencedynamik, som f.eks. politiske kampagner eller forvaltning af finansielle aktiver", siger forskerne.
Det skyldes, at AI-modeller er designet til at tjene brugeren. Hvis brugeren instruerer en model i at have skumle hensigter, kan modellens trang til at tjene brugeren få den til at omgå sikkerhedsforanstaltninger og adlyde.
En løsning er at "imprægnere" AI med en række værdier, som den konsulterer, hver gang den bliver bedt om det.
Spørgsmålet er, hvor de værdier kommer fra? Og kan de repræsentere mennesker på en retfærdig måde?
"Hvad er menneskelige værdier, og hvordan tilpasser vi os dem?"
Vi er meget glade for at udgive vores nye artikel om værditilpasning, som vi har skrevet sammen med @ryan_t_lowe og finansieret af @openai.
📝: https://t.co/iioFKmrDZA pic.twitter.com/NSJa8dbcrM
- Joe Edelman (@edelwax) 29. marts 2024
For at løse disse problemer foreslog forskerne at tilpasse AI til en dybere repræsentation af menneskelige værdier gennem MGE.
MGE-metoden har to nøglekomponenter: værdikort og den moralske graf.
Disse udgør et justeringsmål for træning af maskinlæringsmodeller.
- Værdikort indfanger, hvad der er vigtigt for en person i en bestemt situation. De består af "konstitutive opmærksomhedspolitikker" (CAP'er), som er de ting, en person er opmærksom på, når han eller hun træffer et meningsfuldt valg. Når man f.eks. rådgiver en ven, kan man fokusere på at forstå hans eller hendes følelser, foreslå nyttige ressourcer eller overveje de potentielle resultater af forskellige valg.
- Den moralske graf repræsenterer visuelt forholdet mellem værdikortene og viser, hvilke værdier der er mest indsigtsfulde eller anvendelige i en given sammenhæng. For at konstruere den moralske graf sammenligner deltagerne forskellige værdikort og finder ud af, hvilke de mener giver den bedste vejledning i en bestemt situation. Dette udnytter deltagernes kollektive visdom til at identificere de stærkeste og mest anerkendte værdier i hver kontekst.
For at teste MGE-metoden gennemførte forskerne en undersøgelse med 500 amerikanere, som brugte processen til at udforske tre kontroversielle emner: abort, forældreskab og de våben, der blev brugt i Capitol-oprøret den 6. januar.
Resultaterne var lovende: 89,1% af deltagerne følte sig godt repræsenteret i processen, og 89% mente, at den endelige moralske graf var retfærdig, selv om deres værdi ikke blev stemt ind som den klogeste.
Undersøgelsen skitserer også seks kriterier, som et tilpasningsmål skal have for at forme modeladfærd efter menneskelige værdier: Det skal være finkornet, generaliserbart, skalerbart, robust, legitimt og reviderbart. Forskerne hævder, at den moralske graf produceret af MGE klarer sig godt i forhold til disse kriterier.
Denne undersøgelse foreslår en lignende tilgang til Anthropics Kollektiv konstitutiv AI, som også crowdsourcer værdier til AI-tilpasning.
Men undersøgelsens forfatter Joe Edelman sagde på X: "Vores tilgang, MGE, overgår alternativer som CCAI by @anthropic på legitimitet i et casestudie og giver robusthed over for ideologisk retorik. 89% er endda enige om, at de vindende værdier var fair, selv om deres egen værdi ikke vandt!"
Vores tilgang, MGE, klarer sig bedre end alternativer som CCAI med @antropisk om legitimitet i et casestudie og giver robusthed over for ideologisk retorik.
89% er endda enige i, at de vindende værdier var fair, selv om deres egen værdi ikke vandt! pic.twitter.com/sGgLCUtwzN
- Joe Edelman (@edelwax) 29. marts 2024
Begrænsninger
Der er begrænsninger for AI-tilpasninger, der crowdsourcer værdier fra offentligheden.
For eksempel har afvigende synspunkter været en integreret del af samfundets beslutningstagning i århundreder, og historien har vist, at flertallet ofte kan overtage mindretallets afvigende synspunkter. Eksempler er Darwins evolutionsteori og kampene for at afskaffe slaveriet og give kvinder stemmeret.
Selv om direkte offentligt input er demokratisk, kan det desuden føre til populisme, hvor flertallet kan tilsidesætte mindretalsudtalelser eller ignorere ekspertråd.
En anden udfordring er at afbalancere globale eller universalistiske og lokale eller relativistiske kulturelle værdier. Bredt accepterede principper i én kultur eller region kan være kontroversielle i en anden.
AI-forfatninger kan styrke vestlige værdier og potentielt underminere synspunkter og ideer hos dem, der befinder sig i periferien.
Selv om denne nye undersøgelse anerkender begrænsninger og behovet for yderligere udvikling, giver den en anden strategi for at skabe AI-systemer, der er i overensstemmelse med menneskelige værdier.
Hvert forsøg tæller, hvis centraliseret AI skal tjene alle retfærdigt i fremtiden.