Onderzoekers van het Meaning Alignment Institute hebben een nieuwe aanpak voorgesteld, Moral Graph Elicitation (MGE), om AI-systemen af te stemmen op menselijke waarden.
Nu AI steeds geavanceerder wordt en steeds meer wordt geïntegreerd in ons dagelijks leven, is het van het grootste belang om ervoor te zorgen dat het iedereen eerlijk dient en vertegenwoordigt. Echter, tzijn onderzoek stelt dat het afstemmen van AI op de doelen van de gebruiker alleen geen veiligheid garandeert.
"AI-systemen zullen worden ingezet in contexten waar het blind volgen van de intentie van de operator als bijproduct schade kan veroorzaken. Dit is het duidelijkst te zien in omgevingen met een competitieve dynamiek, zoals politieke campagnes of het beheer van financiële activa," stellen de onderzoekers.
Dit komt omdat AI-modellen ontworpen zijn om de gebruiker te dienen. Als de gebruiker een model instructies geeft voor snode doeleinden, kan het model door zijn drang om de gebruiker te dienen de vangrails omzeilen en gehoorzamen.
Eén oplossing is het 'impregneren' van AI met een reeks waarden die het elke keer dat het wordt gevraagd raadpleegt.
De vraag is waar die waarden vandaan komen. En kunnen ze mensen rechtvaardig vertegenwoordigen?
"Wat zijn menselijke waarden en hoe stemmen we ons daarop af?"
We zijn erg blij met de publicatie van onze nieuwe paper over het afstemmen van waarden, geschreven samen met @ryan_t_lowe en gefinancierd door @openai.
📝: https://t.co/iioFKmrDZA pic.twitter.com/NSJa8dbcrM
- Joe Edelman (@edelwax) 29 maart 2024
Om deze problemen aan te pakken, stelden onderzoekers voor om AI af te stemmen op een diepere representatie van menselijke waarden door middel van MGE.
De MGE-methode heeft twee belangrijke onderdelen: waardekaarten en de morele grafiek.
Deze vormen een afstemmingsdoel voor het trainen van modellen voor machinaal leren.
- Waarden kaarten vastleggen wat belangrijk is voor een persoon in een specifieke situatie. Ze bestaan uit "constitutive attentional policies" (CAPs), dat zijn de dingen waar iemand aandacht aan besteedt bij het maken van een zinvolle keuze. Als je bijvoorbeeld een vriend adviseert, kun je je richten op het begrijpen van zijn emoties, hulpbronnen voorstellen of de mogelijke uitkomsten van verschillende keuzes overwegen.
- De morele grafiek geeft visueel de relaties tussen waardenkaarten weer en geeft aan welke waarden inzichtelijker of toepasselijker zijn in een bepaalde context. Om de morele grafiek te construeren, vergelijken de deelnemers verschillende waardenkaarten en bepalen ze welke volgens hen het beste houvast bieden voor een specifieke situatie. Dit maakt gebruik van de collectieve wijsheid van de deelnemers om de sterkste en meest algemeen erkende waarden voor elke context te identificeren.
Om de MGE-methode te testen, voerden de onderzoekers een onderzoek uit met 500 Amerikanen die het proces gebruikten om drie controversiële onderwerpen te onderzoeken: abortus, ouderschap en de wapens die gebruikt werden bij de Capitoolrellen van 6 januari.
De resultaten waren veelbelovend: 89,1% van de deelnemers voelde zich goed vertegenwoordigd door het proces en 89% vond de uiteindelijke moraalgrafiek eerlijk, zelfs als hun waarde niet als de verstandigste werd gekozen.
Het onderzoek schetst ook zes criteria waaraan een afstemmingsdoel moet voldoen om modelgedrag volgens menselijke waarden vorm te geven: het moet fijnkorrelig, generaliseerbaar, schaalbaar, robuust, legitiem en controleerbaar zijn. De onderzoekers stellen dat de morele grafiek die door MGE wordt geproduceerd goed presteert op deze criteria.
Deze studie stelt een vergelijkbare benadering voor als Anthropic's Collectieve grondwet AI, die ook waarden voor AI-uitlijning crowdsourcet.
Auteur van het onderzoek, Joe Edelman, zei echter op X: "Onze benadering, MGE, presteert beter dan alternatieven zoals CCAI door @anthropic op legitimiteit in een casestudy, en biedt robuustheid tegen ideologische retoriek. 89% zijn het er zelfs over eens dat de winnende waarden eerlijk waren, zelfs als hun eigen waarde niet won!"
Onze benadering, MGE, presteert beter dan alternatieven zoals CCAI door @antropisch over legitimiteit in een casestudy en biedt robuustheid tegen ideologische retoriek.
89% is het er zelfs mee eens dat de winnende waarden eerlijk waren, zelfs als hun eigen waarde niet won! pic.twitter.com/sGgLCUtwzN
- Joe Edelman (@edelwax) 29 maart 2024
Beperkingen
Er zijn beperkingen aan AI-afstemmingsbenaderingen die waarden uit het publiek crowdsourcen.
Zo zijn afwijkende standpunten al eeuwenlang een integraal onderdeel van de maatschappelijke besluitvorming en de geschiedenis heeft aangetoond dat de meerderheid de afwijkende standpunten van de minderheid vaak kan overnemen. Voorbeelden hiervan zijn de evolutietheorie van Darwin en de strijd om de slavernij af te schaffen en vrouwen stemrecht te geven.
Bovendien is directe publieke inbreng weliswaar democratisch, maar het kan leiden tot populisme, waarbij de meerderheid minderheidsstandpunten terzijde schuift of advies van experts naast zich neerlegt.
Een andere uitdaging is het vinden van een evenwicht tussen globale of universalistische en lokale of relativistische culturele waarden. Algemeen aanvaarde principes in de ene cultuur of regio kunnen controversieel zijn in een andere cultuur of regio.
AI-grondwetten zouden de westerse waarden kunnen versterken, waardoor de standpunten en ideeën van mensen in de periferie mogelijk worden uitgehold.
Hoewel dit nieuwe onderzoek de beperkingen erkent en de noodzaak voor verdere ontwikkeling, biedt het een andere strategie voor het creëren van AI-systemen die op één lijn liggen met menselijke waarden.
Elke poging telt als gecentraliseerde AI in de toekomst iedereen eerlijk wil bedienen.