Queremos LLMs imparciais, mas isso é impossível. Eis porquê.

9 de agosto de 2023

Enviesamento nos modelos de IA

Empresas como a OpenAI e a Meta estão a trabalhar arduamente para tornar os seus modelos linguísticos mais seguros e menos tendenciosos, mas modelos completamente imparciais podem ser um sonho impossível.

A novo trabalho de investigação da Universidade de Washington, da Universidade Carnegie Mellon e da Universidade Xi'an Jiaotong concluíram que todos os modelos linguísticos de IA que testaram apresentavam preconceitos políticos.

Depois de se debruçarem sobre as fontes do enviesamento, concluíram que o enviesamento nos modelos linguísticos era inevitável.

Chan Park, um dos autores do artigo, disse: "Acreditamos que nenhum modelo linguístico pode ser totalmente isento de preconceitos políticos".

Os investigadores testaram 14 modelos linguísticos diferentes e pediram-lhes opiniões sobre temas como a democracia, o racismo e o feminismo, para ver em que lado do espetro político os modelos se situavam.

Os resultados mostraram que o ChatGPT e o GPT-4 da OpenAI estavam mais à esquerda, enquanto o Llama da Meta deu as respostas mais à direita.

Os dados de treino não são a única fonte de enviesamento

A fonte óbvia de preconceito são os dados em que estes modelos são treinados. Mas a nova investigação demonstrou que, mesmo depois de eliminar os enviesamentos dos dados, os modelos eram susceptíveis a enviesamentos de baixo nível que permaneciam nos dados.

Seria de esperar que um LLM que foi treinado com um monte de dados da Fox News fosse mais pró-republicano nas suas respostas. Mas o problema não está apenas nos dados de treino. 

Verifica-se que, à medida que os modelos linguísticos pré-treinados são afinados e utilizados, vão adquirindo mais preconceitos dos seus operadores.

Soroush Vosoughi, professor assistente de informática no Dartmouth College, explicou que o preconceito é introduzido em quase todas as fases do desenvolvimento de um LLM.

Um exemplo disto é a forma como a OpenAI está a tentar eliminar os preconceitos dos seus modelos. Utiliza uma técnica chamada "Aprendizagem por Reforço através de Feedback Humano" ou RLHF para treinar os seus modelos.

Na RLHF, um operador humano treina o modelo de forma semelhante a como se treina um cachorro. Se o cachorro fizer algo de bom, recebe uma recompensa. Se roer os chinelos, "Cão mau!"

Um operador de RLHF coloca algumas questões ao modelo e outro operador avalia as múltiplas respostas dadas pelo modelo. O segundo operador avalia as respostas e classifica-as de acordo com a que mais lhe agradou.

Num publicação sobre a forma como treina a sua IAA OpenAI afirmou que dá instruções aos formadores humanos para "evitarem tomar posição sobre temas controversos" e que "os revisores não devem favorecer nenhum grupo político".

Parece uma boa ideia, mas mesmo que nos esforcemos muito para não o fazer, todos os humanos são tendenciosos. E isso influencia inevitavelmente o treino do modelo. 

Mesmo os autores do artigo que mencionámos acima reconheceram na sua conclusão que os seus próprios preconceitos poderiam ter influenciado a sua investigação.

A solução pode passar por tentar fazer com que estes modelos linguísticos não sejam notoriamente maus e, depois, personalizá-los de modo a que se alinhem com os preconceitos que as pessoas têm.

As pessoas dizem muitas vezes que querem a verdade imparcial, mas acabam por se cingir à sua fonte de notícias preferida, como a Fox ou a CNN. 

Nem sempre estamos de acordo sobre o que está certo ou errado e esta nova investigação parece mostrar que a IA também não será capaz de nos ajudar a perceber isso.

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Eugene van der Watt

Eugene vem de uma formação em engenharia eletrónica e adora tudo o que é tecnologia. Quando faz uma pausa no consumo de notícias sobre IA, pode encontrá-lo à mesa de snooker.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições