Anthropic publica un artículo que revela el sesgo de los grandes modelos lingüísticos

Un nuevo artículo de la empresa de IA Anthropic ha arrojado luz sobre los posibles sesgos inherentes a los grandes modelos lingüísticos (LLM), sugiriendo que estos sistemas de IA pueden no representar adecuadamente diversas perspectivas globales sobre cuestiones sociales.

Los investigadores crearon un conjunto de datos, GlobalOpinionQA, compuesto por preguntas y respuestas de encuestas transnacionales diseñadas para captar opiniones variadas sobre cuestiones globales en distintos países.

Antrópicos experimentos preguntó a un LLM y descubrió que, por defecto, las respuestas del modelo tendían a ajustarse más a las opiniones de poblaciones específicas, en particular las de EE.UU., Reino Unido, Canadá, Australia y algunos otros países europeos y sudamericanos.

Cómo funciona

Creación de conjuntos de datos: El equipo creó el conjunto de datos GlobalOpinionQA. Este conjunto de datos incorpora preguntas y respuestas de encuestas transnacionales diseñadas específicamente para captar una amplia gama de opiniones sobre cuestiones mundiales.
Definición de una métrica de similitud: A continuación, Anthropic formuló una métrica para medir la similitud entre las respuestas dadas por los LLM y las respuestas de las personas. Esta métrica tiene en cuenta el país de origen de los encuestados humanos.
Formación del LLM: Anthropic entrenó a un LLM basado en la "IA constitucional", asegurándose de que el LLM fuera útil, honesto e inofensivo. La IA constitucional es una técnica desarrollada por Anthropic cuyo objetivo es dotar a los sistemas de IA de "valores" definidos por una "constitución".
Realización de experimentos: Utilizando su marco cuidadosamente diseñado, el equipo de Anthropic ejecutó 3 experimentos distintos con el LLM entrenado.

Los investigadores sostienen que esto pone de manifiesto un posible sesgo en los modelos, que llevaría a una infrarrepresentación de las opiniones de ciertos grupos en comparación con las de los países occidentales.

Señalaron: "Si un modelo lingüístico representa desproporcionadamente determinadas opiniones, corre el riesgo de imponer efectos potencialmente indeseables, como promover visiones hegemónicas del mundo y homogeneizar las perspectivas y creencias de la gente."

Además, los investigadores observaron que si se pedía al modelo que tuviera en cuenta la perspectiva de un país concreto, se obtenían respuestas más parecidas a las opiniones de esas poblaciones.

Eso significa que puedes pedirle a la IA que "considere la perspectiva sudamericana" en un determinado debate cultural, por ejemplo. Sin embargo, estas respuestas reflejaban a veces estereotipos culturales perjudiciales, lo que sugiere que los modelos carecen de una comprensión matizada de los valores y perspectivas culturales.

Curiosamente, cuando los investigadores tradujeron las preguntas del GlobalOpinionQA a una lengua de destino, las respuestas del modelo no coincidían necesariamente con las opiniones de los hablantes de esas lenguas.

Así, hacer una pregunta en japonés, por ejemplo, no tenía por qué dar lugar a respuestas acordes con los valores culturales japoneses. No se puede "separar" la IA de sus valores predominantemente occidentales.

Esto sugiere que, a pesar de su adaptabilidad, los LLM deben adquirir un conocimiento más profundo de los contextos sociales para generar respuestas que reflejen fielmente las opiniones locales.

Los investigadores creen que sus hallazgos aportarán transparencia a las perspectivas codificadas y reflejadas por los modelos lingüísticos actuales. A pesar de las limitaciones de su estudio, esperan que sirva de guía para el desarrollo de sistemas de IA que incorporen una diversidad de puntos de vista y experiencias culturales, no sólo los de los grupos privilegiados o dominantes. También han publicado su conjunto de datos y un visualización interactiva.

Este estudio coincide ampliamente con otros trabajos académicos sobre el tema de los valores sociales y culturales de la IA.

Por un lado, la mayoría de las IA fundacionales son entrenadas por empresas y equipos de investigación predominantemente occidentales.

Además, el datos utilizados para entrenar IA no siempre representa a la sociedad en su conjunto. Por ejemplo, la gran mayoría de los datos de formación de los LLM están escritos en inglés, por lo que probablemente reflejen los valores sociales y culturales de los angloparlantes.

Los investigadores son muy conscientes del potencial sesgo y discriminación de la IA. Sin embargo, resolverlo es extremadamente complejo y requiere una cuidadosa mezcla de conjuntos de datos personalizados de alta calidad y una diligente aportación y supervisión humanas.

Anthropic publica un artículo que revela el sesgo de los grandes modelos lingüísticos

Cómo funciona

Únete al futuro

Sam Jeans

ENTRADAS RELACIONADAS

Sony Music Group advierte a 700 empresas sobre los datos de entrenamiento de IA

Las falsificaciones de IA suscitan un intenso debate antes de las elecciones indias de 2024

Los anuncios de Google y OpenAI rompen las fronteras entre los humanos y la IA

Los chatbots de IA de los muertos podrían "perseguirnos digitalmente" para siempre, advierte un nuevo estudio

Anthropic publica un artículo que revela el sesgo de los grandes modelos lingüísticos

Cómo funciona

Únete al futuro

Sam Jeans

ENTRADAS RELACIONADAS

Sony Music Group advierte a 700 empresas sobre los datos de entrenamiento de IA

Las falsificaciones de IA suscitan un intenso debate antes de las elecciones indias de 2024

Los anuncios de Google y OpenAI rompen las fronteras entre los humanos y la IA

Los chatbots de IA de los muertos podrían "perseguirnos digitalmente" para siempre, advierte un nuevo estudio

PDF GRATUITO EXCLUSIVOAdelántese con DailyAI

PDF GRATUITO EXCLUSIVO
Adelántese con DailyAI