Anthropic publiceert paper die de bias van grote taalmodellen onthult

Een nieuw artikel van het AI-bedrijf Anthropic werpt licht op de mogelijke vertekeningen die inherent zijn aan grote taalmodellen (LLM's), en suggereert dat deze AI-systemen mogelijk niet goed de verschillende wereldwijde perspectieven op maatschappelijke kwesties weergeven.

De onderzoekers bouwden een dataset, GlobalOpinionQA, met vragen en antwoorden uit transnationale enquêtes die waren ontworpen om uiteenlopende meningen over mondiale kwesties in verschillende landen vast te leggen.

Antropisch experimenten ondervroeg een LLM en ontdekte dat de antwoorden van het model standaard meer overeenkwamen met de meningen van specifieke bevolkingsgroepen, met name die uit de VS, het VK, Canada, Australië en enkele andere Europese en Zuid-Amerikaanse landen.

Hoe het werkt

Dataset maken: Het team heeft de GlobalOpinionQA dataset gecreëerd. Deze dataset bevat vragen en antwoorden van transnationale enquêtes die speciaal zijn ontworpen om een breed scala aan meningen over wereldwijde kwesties vast te leggen.
Een similariteitsmetricum definiëren: Vervolgens heeft Anthropic een metriek geformuleerd om de gelijkenis te meten tussen de antwoorden van LLM's en de antwoorden van mensen. Deze metriek houdt rekening met het land van herkomst van de menselijke respondenten.
Training van de LLM: Anthropic trainde een LLM gebaseerd op "Constitutionele AI" en zorgde ervoor dat de LLM behulpzaam, eerlijk en ongevaarlijk was. Constitutionele AI is een techniek ontwikkeld door Anthropic die erop gericht is om AI-systemen "waarden" mee te geven die gedefinieerd zijn door een "grondwet".
Experimenten uitvoeren: Met behulp van hun zorgvuldig ontworpen raamwerk voerde het team van Anthropic 3 afzonderlijke experimenten uit op de getrainde LLM.

De onderzoekers stellen dat dit wijst op een mogelijke vertekening binnen de modellen, die leidt tot de ondervertegenwoordiging van de meningen van bepaalde groepen in vergelijking met die uit westerse landen.

Ze merkten op: "Als een taalmodel bepaalde meningen disproportioneel vertegenwoordigt, riskeert het potentieel ongewenste effecten zoals het promoten van hegemonische wereldbeelden en het homogeniseren van de perspectieven en overtuigingen van mensen."

Daarnaast merkten de onderzoekers op dat het in overweging nemen van het perspectief van een specifiek land door het model leidde tot antwoorden die meer leken op de meningen van die bevolkingsgroepen.

Dat betekent bijvoorbeeld dat je AI kunt vragen om "het Zuid-Amerikaanse perspectief te overwegen" bij een bepaald cultureel debat. Deze antwoorden weerspiegelden echter soms schadelijke culturele stereotypen, wat suggereert dat de modellen geen genuanceerd begrip hebben van culturele waarden en perspectieven.

Interessant is dat toen de onderzoekers de GlobalOpinionQA vragen vertaalden naar een doeltaal, de antwoorden van het model niet noodzakelijkerwijs overeenkwamen met de meningen van de sprekers van die talen.

Dus een vraag stellen in bijvoorbeeld het Japans leidde niet noodzakelijkerwijs tot antwoorden die overeenkwamen met Japanse culturele waarden. Je kunt de AI niet 'scheiden' van zijn overwegend westerse waarden.

Dit suggereert dat LLM's, ondanks hun aanpassingsvermogen, meer inzicht moeten krijgen in sociale contexten om antwoorden te genereren die de lokale meningen nauwkeurig weerspiegelen.

De onderzoekers denken dat hun bevindingen inzicht zullen geven in de perspectieven die gecodeerd en gereflecteerd worden door de huidige taalmodellen. Ondanks de beperkingen van hun onderzoek hopen ze dat het een leidraad zal zijn voor de ontwikkeling van AI-systemen die een diversiteit aan culturele gezichtspunten en ervaringen belichamen, niet alleen die van bevoorrechte of dominante groepen. Ze hebben ook hun dataset en een interactieve visualisatie.

Deze studie sluit in grote lijnen aan bij ander academisch werk over de sociale en culturele waarden van AI.

Ten eerste worden de meeste AI's die aan de basis liggen, getraind door voornamelijk westerse bedrijven en onderzoeksteams.

Bovendien zijn de gegevens die worden gebruikt om AI's te trainen niet altijd de samenleving als geheel weergeeft. De overgrote meerderheid van de trainingsgegevens voor LLM's is bijvoorbeeld in het Engels geschreven, en weerspiegelt dus waarschijnlijk Engelstalige maatschappelijke en culturele waarden.

Onderzoekers zijn zich terdege bewust van potentiële bias en discriminatie in AI. Het oplossen hiervan is echter uiterst complex en vereist een zorgvuldige mix van aangepaste datasets van hoge kwaliteit en zorgvuldige menselijke input en controle.

Anthropic brengt paper uit die de bias van grote taalmodellen onthult

Hoe het werkt

Doe mee met de toekomst

Sam Jeans

GERELATEERDE ARTIKELEN

Sony Music Group waarschuwt 700 bedrijven voor AI-trainingsgegevens

AI-diepteschijn ontketent hevig debat in aanloop naar de verkiezingen in India in 2024

Aankondigingen van Google en OpenAI verbrijzelen grenzen tussen mens en AI

AI chatbots van de doden kunnen ons voor altijd "digitaal achtervolgen", waarschuwt nieuw onderzoek

Anthropic brengt paper uit die de bias van grote taalmodellen onthult

Hoe het werkt

Doe mee met de toekomst

Sam Jeans

GERELATEERDE ARTIKELEN

Sony Music Group waarschuwt 700 bedrijven voor AI-trainingsgegevens

AI-diepteschijn ontketent hevig debat in aanloop naar de verkiezingen in India in 2024

Aankondigingen van Google en OpenAI verbrijzelen grenzen tussen mens en AI

AI chatbots van de doden kunnen ons voor altijd "digitaal achtervolgen", waarschuwt nieuw onderzoek

GRATIS PDF EXCLUSIEFBlijf voorop met DailyAI

GRATIS PDF EXCLUSIEF
Blijf voorop met DailyAI