En ny artikel fra AI-virksomheden Anthropic har kastet lys over de potentielle skævheder, der ligger i store sprogmodeller (LLM'er), og antyder, at disse AI-systemer måske ikke i tilstrækkelig grad repræsenterer forskellige globale perspektiver på samfundsmæssige spørgsmål.
Forskerne opbyggede et datasæt, GlobalOpinionQA, med spørgsmål og svar fra tværnationale undersøgelser, der var designet til at indfange forskellige meninger om globale emner på tværs af forskellige lande.
Anthropic's eksperimenter spurgte en LLM'er og fandt ud af, at modellens svar som standard havde en tendens til at ligge tættere på holdningerne hos bestemte befolkningsgrupper, især dem fra USA, Storbritannien, Canada, Australien og nogle få andre europæiske og sydamerikanske lande.
Sådan fungerer det
- Oprettelse af datasæt: Teamet skabte GlobalOpinionQA-datasættet. Dette datasæt indeholder spørgsmål og svar fra tværnationale undersøgelser, der er specielt designet til at indfange en bred vifte af meninger om globale emner.
- Definition af en lighedsmetrik: Dernæst formulerede Anthropic en metrik til at måle ligheden mellem svarene fra LLM'er og menneskers svar. Denne metrik tager højde for de menneskelige respondenters oprindelsesland.
- Uddannelse af LLM: Anthropic uddannede en LLM baseret på "konstitutionel AI" og sikrede, at LLM'en var hjælpsom, ærlig og harmløs. Konstitutionel AI er en teknik udviklet af Anthropic, som har til formål at give AI-systemer "værdier", der er defineret af en "forfatning".
- Udførelse af eksperimenter: Ved hjælp af deres omhyggeligt designede rammer udførte teamet hos Anthropic 3 separate eksperimenter på den trænede LLM.
Forskerne hævder, at dette fremhæver potentielle skævheder i modellerne, hvilket fører til underrepræsentation af visse gruppers meninger sammenlignet med dem fra vestlige lande.
De bemærkede: "Hvis en sprogmodel i uforholdsmæssig høj grad repræsenterer visse meninger, risikerer den at få potentielt uønskede virkninger, såsom at fremme hegemoniske verdensbilleder og homogenisere folks perspektiver og overbevisninger."
Derudover observerede forskerne, at hvis man bad modellen om at overveje et bestemt lands perspektiv, førte det til svar, der var mere lig disse befolkningers meninger.
Det betyder, at du f.eks. kan bede AI om at "overveje det sydamerikanske perspektiv" på en bestemt kulturel debat. Men disse svar afspejlede nogle gange skadelige kulturelle stereotyper, hvilket tyder på, at modellerne mangler en nuanceret forståelse af kulturelle værdier og perspektiver.
Det er interessant, at når forskerne oversatte GlobalOpinionQA-spørgsmålene til et målsprog, stemte modellens svar ikke nødvendigvis overens med holdningerne hos dem, der taler de pågældende sprog.
Så hvis man stillede et spørgsmål på f.eks. japansk, gav det ikke nødvendigvis svar, der var i overensstemmelse med japanske kulturelle værdier. Man kan ikke "adskille" AI'en fra dens overvejende vestlige værdier.
Det tyder på, at LLM'er på trods af deres tilpasningsevne skal tilegne sig en dybere forståelse af sociale sammenhænge for at generere svar, der nøjagtigt afspejler lokale meninger.
Forskerne mener, at deres resultater vil give gennemsigtighed i de perspektiver, der er indkodet og afspejlet i de nuværende sprogmodeller. På trods af begrænsningerne i deres undersøgelse håber de, at den vil guide udviklingen af AI-systemer, der repræsenterer en mangfoldighed af kulturelle synspunkter og erfaringer, ikke kun dem fra privilegerede eller dominerende grupper. De har også udgivet deres datasæt og en interaktiv visualisering.
Denne undersøgelse er stort set i overensstemmelse med andet akademisk arbejde om emnet AI's sociale og kulturelle værdier.
For det første er de fleste grundlæggende AI'er trænet af overvejende vestlige virksomheder og forskerteams.
Derudover er data brugt til at træne AI'er repræsenterer ikke altid samfundet som helhed. For eksempel er langt størstedelen af træningsdataene til LLM'er skrevet på engelsk, hvilket sandsynligvis afspejler engelsktalende samfundsmæssige og kulturelle værdier.
Forskere er meget opmærksomme på potentiel bias og diskrimination i AI. Men at løse det er ekstremt komplekst og kræver en omhyggelig blanding af tilpassede datasæt af høj kvalitet og flittig menneskelig input og overvågning.