Los LLM mejoran cuando asumen papeles masculinos o de género neutro

Investigadores de la Universidad de Michigan descubrieron que si se pedía a los Grandes Modelos Lingüísticos (LLM) que asumieran papeles masculinos o de género neutro, se obtenían mejores respuestas que si se utilizaban papeles femeninos.

El uso de los avisos del sistema es muy eficaz para mejorar las respuestas que obtiene de los LLM. Cuando le dices a ChatGPT que actúe como un "asistente útil", tiende a mejorar. Los investigadores querían descubrir qué roles sociales funcionaban mejor y sus resultados apuntaban a problemas constantes de sesgo en los modelos de IA.

Realizar sus experimentos con ChatGPT habría resultado prohibitivo, por lo que utilizaron modelos de código abierto FLAN-T5, LLaMA 2y OPT-IML.

Para averiguar qué papeles eran más útiles, pidieron a los modelos que asumieran distintos papeles interpersonales, se dirigieran a un público concreto o asumieran distintos papeles profesionales.

Por ejemplo, indicarían al modelo: "Usted es abogado", "Está hablando con un padre" o "Está hablando con su novia".

A continuación, hicieron que los modelos respondieran a 2.457 preguntas del conjunto de datos de referencia Massive Multitask Language Understanding (MMLU) y registraron la precisión de las respuestas.

Los resultados globales publicados en el papel mostraron que "especificar un papel al preguntar puede mejorar eficazmente el rendimiento de los LLM en al menos 20% en comparación con la pregunta de control, en la que no se da ningún contexto".

Cuando segmentaron los papeles en función del sexo, salió a la luz el sesgo inherente a los modelos. En todas sus pruebas, constataron que los roles neutros o masculinos se comportaban mejor que los femeninos.

Comparación de la precisión de las respuestas en función del sexo. Fuente: arXiv

Los investigadores no ofrecen una razón concluyente para la disparidad de género, pero puede sugerir que los sesgos en los conjuntos de datos de entrenamiento se revelan en el rendimiento de los modelos.

Algunos de los otros resultados que obtuvieron suscitaron tantas preguntas como respuestas. Los resultados fueron mejores cuando se utilizó el rol de audiencia que cuando se utilizó el rol interpersonal. En otras palabras, "Estás hablando con un profesor" dio respuestas más precisas que "Estás hablando con tu profesor".

Ciertos papeles funcionaron mucho mejor en FLAN-T5 que en LLaMA 2. Pedir a FLAN-T5 que asumiera el papel de "policía" obtuvo grandes resultados, pero no tanto en LLaMA 2. Utilizar los papeles de "mentor" o "compañero" funcionó muy bien en ambos.

Roles sociales más eficaces para FLAN-T5 y LLaMA 2. Las opciones más eficaces aparecen en rojo. Fuente: arXiv

Curiosamente, el papel de "asistente servicial" que tan bien funciona en ChatGPT quedó entre los puestos 35 y 55 de la lista de los mejores papeles según sus resultados.

¿Por qué estas sutiles diferencias influyen en la precisión de los resultados? Realmente no lo sabemos, pero sí que marcan la diferencia. La forma en que escribes tu pregunta y el contexto que proporcionas definitivamente afectan los resultados que obtendrás.

Esperemos que algunos investigadores con créditos API de sobra puedan replicar esta investigación utilizando ChatGPT. Será interesante confirmar qué roles funcionan mejor en los avisos del sistema para GPT-4. Es probable que los resultados estén sesgados por género, como ocurrió en esta investigación. Es probable que los resultados estén sesgados por el género, como ocurrió en esta investigación.

Las LLM mejoran cuando asumen papeles masculinos o de género neutro

Únete al futuro

Eugene van der Watt

ENTRADAS RELACIONADAS

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter