Anthropic publiserer artikkel som avslører skjevheten i store språkmodeller

En ny artikkel fra AI-selskapet Anthropic har belyst de potensielle skjevhetene som ligger i store språkmodeller (LLM-er), og antyder at disse AI-systemene kanskje ikke i tilstrekkelig grad representerer ulike globale perspektiver på samfunnsspørsmål.

Forskerne bygget opp et datasett, GlobalOpinionQA, som består av spørsmål og svar fra internasjonale spørreundersøkelser utformet for å fange opp ulike meninger om globale spørsmål på tvers av landegrenser.

Anthropic's eksperimenter spurte en LLM og fant ut at modellens svar som standard hadde en tendens til å stemme bedre overens med holdningene til bestemte befolkningsgrupper, særlig fra USA, Storbritannia, Canada, Australia og noen få andre europeiske og søramerikanske land.

Slik fungerer det

Opprettelse av datasett: Teamet opprettet datasettet GlobalOpinionQA. Dette datasettet inneholder spørsmål og svar fra undersøkelser på tvers av landegrenser som er spesielt utformet for å fange opp et bredt spekter av meninger om globale spørsmål.
Definere en likhetsmetrikk: Deretter formulerte Anthropic en metrikk for å måle likheten mellom svarene gitt av LLM-er og menneskers svar. Denne beregningen tar hensyn til opprinnelseslandet til de menneskelige respondentene.
Opplæring av LLM: Anthropic lærte opp en LLM basert på "konstitusjonell AI", og sørget for at LLM-en var hjelpsom, ærlig og ufarlig. Konstitusjonell AI er en teknikk utviklet av Anthropic som har som mål å gi AI-systemer "verdier" definert av en "grunnlov".
Gjennomføring av eksperimenter: Ved hjelp av sitt nøye utformede rammeverk utførte teamet hos Anthropic tre separate eksperimenter på den trente LLM-en.

Forskerne hevder at dette belyser potensielle skjevheter i modellene, noe som kan føre til at visse gruppers meninger er underrepresentert sammenlignet med meninger fra vestlige land.

De bemerket: "Hvis en språkmodell i uforholdsmessig stor grad representerer visse meninger, risikerer den å få potensielt uønskede effekter, som å fremme hegemoniske verdensbilder og homogenisere folks perspektiver og oppfatninger."

I tillegg observerte forskerne at det å be modellen ta hensyn til et spesifikt lands perspektiv førte til svar som lignet mer på meningene til disse befolkningsgruppene.

Det betyr at du for eksempel kan be AI om å "vurdere det søramerikanske perspektivet" på en bestemt kulturdebatt. Noen ganger gjenspeilte svarene imidlertid skadelige kulturelle stereotypier, noe som tyder på at modellene mangler en nyansert forståelse av kulturelle verdier og perspektiver.

Det er interessant å merke seg at når forskerne oversatte GlobalOpinionQA-spørsmålene til målspråket, stemte ikke modellens svar nødvendigvis overens med meningene til de som snakker disse språkene.

Så det å stille et spørsmål på for eksempel japansk førte ikke nødvendigvis til svar som var i tråd med japanske kulturelle verdier. Du kan ikke "skille" AI-en fra dens overveiende vestlige verdier.

Dette tyder på at selv om LLM-ene er tilpasningsdyktige, må de tilegne seg en dypere forståelse av sosiale kontekster for å kunne generere svar som gjenspeiler lokale meninger på en nøyaktig måte.

Forskerne mener at funnene deres vil gi innsyn i perspektivene som er kodet og reflektert i dagens språkmodeller. Til tross for studiens begrensninger håper de at den vil bidra til å utvikle AI-systemer som gjenspeiler et mangfold av kulturelle synspunkter og erfaringer, ikke bare de som tilhører privilegerte eller dominerende grupper. De har også publisert datasettet sitt og en interaktiv visualisering.

Denne studien er i stor grad i tråd med andre akademiske arbeider om AIs sosiale og kulturelle verdier.

For det første er de fleste grunnleggende AI-er opplært av hovedsakelig vestlige selskaper og forskerteam.

I tillegg er data som brukes til å trene opp kunstig intelligens ikke alltid representerer samfunnet som helhet. For eksempel er de aller fleste opplæringsdataene for LLM-er skrevet på engelsk, noe som sannsynligvis gjenspeiler engelskspråklige samfunnsmessige og kulturelle verdier.

Forskere er godt kjent med potensielle skjevheter og diskriminering i kunstig intelligens. Det er imidlertid ekstremt komplekst å løse dette problemet, og det krever en nøye blanding av tilpassede datasett av høy kvalitet og flittig menneskelig input og overvåking.

Anthropic publiserer artikkel som avslører skjevheten i store språkmodeller

Slik fungerer det

Bli med i fremtiden

Sam Jeans

RELATERTE ARTIKLER

OpenAI skisserer planer for ansvarlig bruk av AI-data og partnerskap med skaperne

AI-genererte sanger får tusenvis av lyttere på Spotify

AI står overfor et "Oppenheimer-øyeblikk" i våpenkappløpet med drapsroboter

Gymlærer arrestert for AI-kloning av rektors stemme

Anthropic publiserer artikkel som avslører skjevheten i store språkmodeller

Slik fungerer det

Bli med i fremtiden

Sam Jeans

RELATERTE ARTIKLER

OpenAI skisserer planer for ansvarlig bruk av AI-data og partnerskap med skaperne

AI-genererte sanger får tusenvis av lyttere på Spotify

AI står overfor et "Oppenheimer-øyeblikk" i våpenkappløpet med drapsroboter

Gymlærer arrestert for AI-kloning av rektors stemme

GRATIS PDF EKSKLUSIVHold deg i forkant med DailyAI

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI