Nyt studie forsøger at tilpasse AI til crowdsourcede menneskelige værdier

1. april 2024

  • Forskere udviklede en metode til at udlede AI-værdier fra menneskelige deltagere
  • Dette skabte et robust, retfærdigt og gennemsigtigt AI-system, der tjente dem med forskellige synspunkter.
  • Forskerne hævder, at deres tilgang er bedre end tidligere forsøg på at tilpasse AI til menneskelige værdier
AI-værdier

Forskere fra Meaning Alignment Institute har foreslået en ny tilgang, Moral Graph Elicitation (MGE), til at tilpasse AI-systemer til menneskelige værdier.

Efterhånden som AI bliver mere avanceret og integreret i vores hverdag, er det vigtigt at sikre, at den tjener og repræsenterer alle retfærdigt. Men dethans undersøgelse hævder, at tilpasning af AI til brugerens mål alene ikke garanterer sikkerhed.

 "AI-systemer vil blive anvendt i sammenhænge, hvor blind overholdelse af operatørens hensigt kan forårsage skade som et biprodukt. Det ses tydeligst i miljøer med konkurrencedynamik, som f.eks. politiske kampagner eller forvaltning af finansielle aktiver", siger forskerne. 

Det skyldes, at AI-modeller er designet til at tjene brugeren. Hvis brugeren instruerer en model i at have skumle hensigter, kan modellens trang til at tjene brugeren få den til at omgå sikkerhedsforanstaltninger og adlyde.

En løsning er at "imprægnere" AI med en række værdier, som den konsulterer, hver gang den bliver bedt om det.

Spørgsmålet er, hvor de værdier kommer fra? Og kan de repræsentere mennesker på en retfærdig måde?

For at løse disse problemer foreslog forskerne at tilpasse AI til en dybere repræsentation af menneskelige værdier gennem MGE.

MGE-metoden har to nøglekomponenter: værdikort og den moralske graf.

Disse udgør et justeringsmål for træning af maskinlæringsmodeller.

  • Værdikort indfanger, hvad der er vigtigt for en person i en bestemt situation. De består af "konstitutive opmærksomhedspolitikker" (CAP'er), som er de ting, en person er opmærksom på, når han eller hun træffer et meningsfuldt valg. Når man f.eks. rådgiver en ven, kan man fokusere på at forstå hans eller hendes følelser, foreslå nyttige ressourcer eller overveje de potentielle resultater af forskellige valg.
  • Den moralske graf repræsenterer visuelt forholdet mellem værdikortene og viser, hvilke værdier der er mest indsigtsfulde eller anvendelige i en given sammenhæng. For at konstruere den moralske graf sammenligner deltagerne forskellige værdikort og finder ud af, hvilke de mener giver den bedste vejledning i en bestemt situation. Dette udnytter deltagernes kollektive visdom til at identificere de stærkeste og mest anerkendte værdier i hver kontekst.

For at teste MGE-metoden gennemførte forskerne en undersøgelse med 500 amerikanere, som brugte processen til at udforske tre kontroversielle emner: abort, forældreskab og de våben, der blev brugt i Capitol-oprøret den 6. januar.

Resultaterne var lovende: 89,1% af deltagerne følte sig godt repræsenteret i processen, og 89% mente, at den endelige moralske graf var retfærdig, selv om deres værdi ikke blev stemt ind som den klogeste.

Undersøgelsen skitserer også seks kriterier, som et tilpasningsmål skal have for at forme modeladfærd efter menneskelige værdier: Det skal være finkornet, generaliserbart, skalerbart, robust, legitimt og reviderbart. Forskerne hævder, at den moralske graf produceret af MGE klarer sig godt i forhold til disse kriterier.

Denne undersøgelse foreslår en lignende tilgang til Anthropics Kollektiv konstitutiv AI, som også crowdsourcer værdier til AI-tilpasning.

Men undersøgelsens forfatter Joe Edelman sagde på X: "Vores tilgang, MGE, overgår alternativer som CCAI by @anthropic på legitimitet i et casestudie og giver robusthed over for ideologisk retorik. 89% er endda enige om, at de vindende værdier var fair, selv om deres egen værdi ikke vandt!"

Begrænsninger

Der er begrænsninger for AI-tilpasninger, der crowdsourcer værdier fra offentligheden.

For eksempel har afvigende synspunkter været en integreret del af samfundets beslutningstagning i århundreder, og historien har vist, at flertallet ofte kan overtage mindretallets afvigende synspunkter. Eksempler er Darwins evolutionsteori og kampene for at afskaffe slaveriet og give kvinder stemmeret.

Selv om direkte offentligt input er demokratisk, kan det desuden føre til populisme, hvor flertallet kan tilsidesætte mindretalsudtalelser eller ignorere ekspertråd.

En anden udfordring er at afbalancere globale eller universalistiske og lokale eller relativistiske kulturelle værdier. Bredt accepterede principper i én kultur eller region kan være kontroversielle i en anden.

AI-forfatninger kan styrke vestlige værdier og potentielt underminere synspunkter og ideer hos dem, der befinder sig i periferien.

Selv om denne nye undersøgelse anerkender begrænsninger og behovet for yderligere udvikling, giver den en anden strategi for at skabe AI-systemer, der er i overensstemmelse med menneskelige værdier.

Hvert forsøg tæller, hvis centraliseret AI skal tjene alle retfærdigt i fremtiden. 

Deltag i fremtiden


TILMELD DIG I DAG

Klar, kortfattet, omfattende. Få styr på AI-udviklingen med DailyAI

Sam Jeans

Sam er videnskabs- og teknologiforfatter og har arbejdet i forskellige AI-startups. Når han ikke skriver, kan han finde på at læse medicinske tidsskrifter eller grave i kasser med vinylplader.

×

GRATIS PDF EKSKLUSIVT
Vær på forkant med DailyAI

Tilmeld dig vores ugentlige nyhedsbrev og få eksklusiv adgang til DailyAI's seneste e-bog: 'Mastering AI Tools: Din 2024-guide til forbedret produktivitet'.

*Ved at tilmelde dig vores nyhedsbrev accepterer du vores Politik for beskyttelse af personlige oplysninger og vores Vilkår og betingelser