Antropiska utgåvor avslöjar fördomar i stora språkmodeller

En ny rapport från AI-företaget Anthropic belyser de potentiella fördomar som finns i stora språkmodeller (LLM), vilket tyder på att dessa AI-system kanske inte på ett adekvat sätt representerar olika globala perspektiv på samhällsfrågor.

Forskarna skapade ett dataset, GlobalOpinionQA, med frågor och svar från internationella undersökningar som utformats för att fånga upp olika åsikter om globala frågor i olika länder.

Anthropic's experiment frågade ut en LLM och fann att modellens svar som standard tenderade att ligga närmare åsikterna hos specifika befolkningar, särskilt de från USA, Storbritannien, Kanada, Australien och några andra europeiska och sydamerikanska länder.

Så här fungerar det

Skapande av dataset: Teamet skapade datasetet GlobalOpinionQA. Detta dataset innehåller frågor och svar från gränsöverskridande undersökningar som är särskilt utformade för att fånga upp ett brett spektrum av åsikter om globala frågor.
Definiera ett likhetsmått: Därefter formulerade Anthropic ett mått för att mäta likheten mellan de svar som LLM:erna ger och människors svar. Detta mått tar hänsyn till ursprungslandet för de mänskliga respondenterna.
Utbildning för LLM: Anthropic utbildade en LLM baserat på "Constitutional AI" och säkerställde att LLM var hjälpsam, ärlig och ofarlig. Konstitutionell AI är en teknik som utvecklats av Anthropic och som syftar till att förse AI-system med "värden" som definieras av en "konstitution".
Genomföra experiment: Med hjälp av sitt noggrant utformade ramverk genomförde teamet på Anthropic 3 separata experiment på den utbildade LLM.

Forskarna menar att detta visar på en potentiell partiskhet i modellerna, vilket leder till att vissa gruppers åsikter underrepresenteras jämfört med åsikter från västländer.

De konstaterade: "Om en språkmodell på ett oproportionerligt sätt representerar vissa åsikter riskerar den att få potentiellt oönskade effekter, som att främja hegemoniska världsbilder och homogenisera människors perspektiv och övertygelser."

Dessutom observerade forskarna att om modellen uppmanades att ta hänsyn till ett specifikt lands perspektiv ledde det till svar som mer liknade åsikterna hos dessa befolkningar.

Det innebär att du till exempel kan be AI att "beakta det sydamerikanska perspektivet" i en viss kulturdebatt. Svaren återspeglade dock ibland skadliga kulturella stereotyper, vilket tyder på att modellerna saknar en nyanserad förståelse för kulturella värderingar och perspektiv.

Det är intressant att notera att när forskarna översatte GlobalOpinionQA-frågorna till ett målspråk, så stämde modellens svar inte nödvändigtvis överens med de åsikter som talarna av dessa språk hade.

Att ställa en fråga på till exempel japanska ledde inte nödvändigtvis till svar som var i linje med japanska kulturella värderingar. Det går inte att "skilja" AI:n från dess övervägande västerländska värderingar.

Detta tyder på att LLM trots sin anpassningsförmåga måste skaffa sig en djupare förståelse för sociala sammanhang för att generera svar som korrekt återspeglar lokala åsikter.

Forskarna tror att deras resultat kommer att ge insyn i de perspektiv som kodas och återspeglas av nuvarande språkmodeller. Trots begränsningarna i deras studie hoppas de att den kommer att vägleda utvecklingen av AI-system som förkroppsligar en mångfald av kulturella synpunkter och erfarenheter, inte bara de som tillhör privilegierade eller dominerande grupper. De har också publicerat sitt dataset och en interaktiv visualisering.

Denna studie överensstämmer i stort med andra akademiska arbeten på temat AI:s sociala och kulturella värden.

För det första utbildas de flesta grundläggande AI:er av övervägande västerländska företag och forskargrupper.

Därutöver har data används för att utbilda AI inte alltid representerar samhället som helhet. Till exempel är de allra flesta utbildningsdata för LLM:er skrivna på engelska, vilket sannolikt återspeglar engelsktalande samhälleliga och kulturella värderingar.

Forskare är väl medvetna om att det finns risk för partiskhet och diskriminering inom AI. Att lösa problemet är dock extremt komplext och kräver en noggrann blandning av anpassade högkvalitativa dataset och noggrann mänsklig input och övervakning.

Antropiska utgåvor avslöjar bias i stora språkmodeller

Så här fungerar det

Bli en del av framtiden

Sam Jeans

RELATERADE ARTIKLAR

Sony Music Group utfärdar varning för AI-träningsdata till 700 företag

AI-förfalskningar väcker häftig debatt inför valet i Indien 2024

Googles och OpenAI:s tillkännagivanden spränger gränserna mellan människa och AI

De dödas AI-chatbottar kan "digitalt hemsöka" oss för alltid, varnar ny studie

Antropiska utgåvor avslöjar bias i stora språkmodeller

Så här fungerar det

Bli en del av framtiden

Sam Jeans

RELATERADE ARTIKLAR

Sony Music Group utfärdar varning för AI-träningsdata till 700 företag

AI-förfalskningar väcker häftig debatt inför valet i Indien 2024

Googles och OpenAI:s tillkännagivanden spränger gränserna mellan människa och AI

De dödas AI-chatbottar kan "digitalt hemsöka" oss för alltid, varnar ny studie

GRATIS PDF EXKLUSIVLigg steget före med DailyAI

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI