Anthropic brengt paper uit die de bias van grote taalmodellen onthult

30 juni 2023
ai antropisch

Een nieuw artikel van het AI-bedrijf Anthropic werpt licht op de mogelijke vertekeningen die inherent zijn aan grote taalmodellen (LLM's), en suggereert dat deze AI-systemen mogelijk niet goed de verschillende wereldwijde perspectieven op maatschappelijke kwesties weergeven.

De onderzoekers bouwden een dataset, GlobalOpinionQA, met vragen en antwoorden uit transnationale enquêtes die waren ontworpen om uiteenlopende meningen over mondiale kwesties in verschillende landen vast te leggen. 

Antropisch experimenten ondervroeg een LLM en ontdekte dat de antwoorden van het model standaard meer overeenkwamen met de meningen van specifieke bevolkingsgroepen, met name die uit de VS, het VK, Canada, Australië en enkele andere Europese en Zuid-Amerikaanse landen. 

Hoe het werkt

  1. Dataset maken: Het team heeft de GlobalOpinionQA dataset gecreëerd. Deze dataset bevat vragen en antwoorden van transnationale enquêtes die speciaal zijn ontworpen om een breed scala aan meningen over wereldwijde kwesties vast te leggen.
  2. Een similariteitsmetricum definiëren: Vervolgens heeft Anthropic een metriek geformuleerd om de gelijkenis te meten tussen de antwoorden van LLM's en de antwoorden van mensen. Deze metriek houdt rekening met het land van herkomst van de menselijke respondenten.
  3. Training van de LLM: Anthropic trainde een LLM gebaseerd op "Constitutionele AI" en zorgde ervoor dat de LLM behulpzaam, eerlijk en ongevaarlijk was. Constitutionele AI is een techniek ontwikkeld door Anthropic die erop gericht is om AI-systemen "waarden" mee te geven die gedefinieerd zijn door een "grondwet".
  4. Experimenten uitvoeren: Met behulp van hun zorgvuldig ontworpen raamwerk voerde het team van Anthropic 3 afzonderlijke experimenten uit op de getrainde LLM.

De onderzoekers stellen dat dit wijst op een mogelijke vertekening binnen de modellen, die leidt tot de ondervertegenwoordiging van de meningen van bepaalde groepen in vergelijking met die uit westerse landen. 

Ze merkten op: "Als een taalmodel bepaalde meningen disproportioneel vertegenwoordigt, riskeert het potentieel ongewenste effecten zoals het promoten van hegemonische wereldbeelden en het homogeniseren van de perspectieven en overtuigingen van mensen."

Daarnaast merkten de onderzoekers op dat het in overweging nemen van het perspectief van een specifiek land door het model leidde tot antwoorden die meer leken op de meningen van die bevolkingsgroepen.

Dat betekent bijvoorbeeld dat je AI kunt vragen om "het Zuid-Amerikaanse perspectief te overwegen" bij een bepaald cultureel debat. Deze antwoorden weerspiegelden echter soms schadelijke culturele stereotypen, wat suggereert dat de modellen geen genuanceerd begrip hebben van culturele waarden en perspectieven.

Interessant is dat toen de onderzoekers de GlobalOpinionQA vragen vertaalden naar een doeltaal, de antwoorden van het model niet noodzakelijkerwijs overeenkwamen met de meningen van de sprekers van die talen.

Dus een vraag stellen in bijvoorbeeld het Japans leidde niet noodzakelijkerwijs tot antwoorden die overeenkwamen met Japanse culturele waarden. Je kunt de AI niet 'scheiden' van zijn overwegend westerse waarden.

Dit suggereert dat LLM's, ondanks hun aanpassingsvermogen, meer inzicht moeten krijgen in sociale contexten om antwoorden te genereren die de lokale meningen nauwkeurig weerspiegelen.

De onderzoekers denken dat hun bevindingen inzicht zullen geven in de perspectieven die gecodeerd en gereflecteerd worden door de huidige taalmodellen. Ondanks de beperkingen van hun onderzoek hopen ze dat het een leidraad zal zijn voor de ontwikkeling van AI-systemen die een diversiteit aan culturele gezichtspunten en ervaringen belichamen, niet alleen die van bevoorrechte of dominante groepen. Ze hebben ook hun dataset en een interactieve visualisatie.

Deze studie sluit in grote lijnen aan bij ander academisch werk over de sociale en culturele waarden van AI.

Ten eerste worden de meeste AI's die aan de basis liggen, getraind door voornamelijk westerse bedrijven en onderzoeksteams.

Bovendien zijn de gegevens die worden gebruikt om AI's te trainen niet altijd de samenleving als geheel weergeeft. De overgrote meerderheid van de trainingsgegevens voor LLM's is bijvoorbeeld in het Engels geschreven, en weerspiegelt dus waarschijnlijk Engelstalige maatschappelijke en culturele waarden.

Onderzoekers zijn zich terdege bewust van potentiële bias en discriminatie in AI. Het oplossen hiervan is echter uiterst complex en vereist een zorgvuldige mix van aangepaste datasets van hoge kwaliteit en zorgvuldige menselijke input en controle.

Doe mee met de toekomst


SCHRIJF JE VANDAAG NOG IN

Duidelijk, beknopt, uitgebreid. Krijg grip op AI-ontwikkelingen met DailyAI

Sam Jeans

Sam is een wetenschap- en technologieschrijver die bij verschillende AI-startups heeft gewerkt. Als hij niet aan het schrijven is, leest hij medische tijdschriften of graaft hij door dozen met vinylplaten.

×
 
 

GRATIS PDF EXCLUSIEF
Blijf voorop met DailyAI


 

Meld je aan voor onze wekelijkse nieuwsbrief en ontvang exclusieve toegang tot DailyAI's nieuwste eBook: 'Mastering AI Tools: Your 2024 Guide to Enhanced Productivity'.



 
 

* Door u aan te melden voor onze nieuwsbrief accepteert u onze Privacybeleid en onze Algemene voorwaarden