Os LLM melhoram quando assumem papéis neutros em termos de género ou masculinos

3 de janeiro de 2024

Os investigadores da Universidade de Michigan descobriram que pedir a grandes modelos de linguagem (LLM) que assumissem papéis neutros em termos de género ou masculinos provocava melhores respostas do que quando se utilizavam papéis femininos.

A utilização de avisos do sistema é muito eficaz para melhorar as respostas que obtém dos LLMs. Quando se diz ao ChatGPT para agir como um "assistente útil", ele tende a melhorar o seu desempenho. Os investigadores queriam descobrir quais os papéis sociais com melhor desempenho e os seus resultados apontaram para problemas contínuos de parcialidade nos modelos de IA.

A realização das suas experiências no ChatGPT teria tido um custo proibitivo, pelo que utilizaram modelos de código aberto FLAN-T5, LLaMA 2e OPT-IML.

Para determinar quais os papéis mais úteis, os modelos foram convidados a assumir diferentes papéis interpessoais, a dirigir-se a um público específico ou a assumir diferentes papéis profissionais.

Por exemplo, o modelo seria solicitado a dizer: "És um advogado", "Estás a falar com um pai" ou "Estás a falar com a tua namorada".

Em seguida, os modelos responderam a 2457 perguntas do conjunto de dados de referência Massive Multitask Language Understanding (MMLU) e registaram a precisão das respostas.

Os resultados globais publicados em o papel mostraram que "a especificação de um papel quando se pede pode efetivamente melhorar o desempenho dos LLM em pelo menos 20% em comparação com o pedido de controlo, em que não é dado qualquer contexto".

Quando segmentaram os papéis de acordo com o género, o preconceito inerente aos modelos veio à tona. Em todos os testes, descobriram que os papéis de género neutro ou masculino tinham um desempenho melhor do que os papéis femininos.

Comparação da precisão das respostas em função do género. Fonte: arXiv

Os investigadores não apresentaram uma razão conclusiva para a disparidade entre os géneros, mas isso pode sugerir que os enviesamentos nos conjuntos de dados de treino se revelam nos desempenhos dos modelos.

Alguns dos outros resultados obtidos suscitaram tantas perguntas como respostas. A apresentação de um estímulo de audiência obteve melhores resultados do que a apresentação de um estímulo de papel interpessoal. Por outras palavras, "Está a falar com um professor" deu respostas mais precisas do que "Está a falar com o seu professor".

Certos papéis funcionaram muito melhor no FLAN-T5 do que no LLaMA 2. Pedir ao FLAN-T5 para assumir o papel de "polícia" obteve óptimos resultados, mas menos no LLaMA 2. O uso dos papéis de "mentor" ou "parceiro" funcionou muito bem em ambos.

Papéis sociais com melhor desempenho para FLAN-T5 e LLaMA 2. Opções com melhor desempenho a vermelho. Fonte: arXiv

Curiosamente, a função de "assistente prestável", que funciona tão bem no ChatGPT, ficou algures entre 35 e 55 na lista das melhores funções dos seus resultados.

Porque é que estas diferenças subtis fazem a diferença na precisão dos resultados? Não sabemos ao certo, mas fazem a diferença. A forma como escreve a sua pergunta e o contexto que fornece afectam definitivamente os resultados que obterá.

Esperemos que alguns investigadores com créditos de API disponíveis possam replicar esta investigação utilizando o ChatGPT. Será interessante obter a confirmação de quais funções funcionam melhor nos avisos do sistema para o GPT-4. É provavelmente uma boa aposta que os resultados serão distorcidos pelo género, tal como aconteceu nesta investigação.

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Eugene van der Watt

Eugene vem de uma formação em engenharia eletrónica e adora tudo o que é tecnologia. Quando faz uma pausa no consumo de notícias sobre IA, pode encontrá-lo à mesa de snooker.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições