Un nuevo estudio intenta alinear la IA con los valores humanos del crowdsourcing

1 de abril de 2024

  • Los investigadores han ideado un método para obtener valores de IA a partir de participantes humanos
  • Así se creó un sistema de IA sólido, justo y transparente que sirvió a quienes tenían opiniones diversas
  • Los investigadores sostienen que su enfoque supera los intentos anteriores de alinear la IA con los valores humanos
Valores de IA

Investigadores del Meaning Alignment Institute han propuesto un nuevo enfoque, Moral Graph Elicitation (MGE), para alinear los sistemas de IA con los valores humanos.

A medida que la IA avanza y se integra en nuestra vida cotidiana, es primordial garantizar que sirva y represente a todos de forma justa. Sin embargosu estudiar sostiene que alinear la IA con los objetivos del usuario no garantiza por sí solo la seguridad.

 "Los sistemas de IA se desplegarán en contextos en los que la adhesión ciega a la intención del operador puede causar daños como subproducto. Esto puede verse más claramente en entornos con dinámicas competitivas, como las campañas políticas o la gestión de activos financieros", argumentan los investigadores. 

Esto se debe a que los modelos de IA están diseñados para servir al usuario. Si el usuario da instrucciones a un modelo con fines nefastos, el afán del modelo por servir al usuario puede hacer que se salte los guardarraíles y obedezca.

Una solución es "impregnar" a la IA de una serie de valores que consulte cada vez que se le solicite.

La pregunta es: ¿de dónde proceden esos valores? ¿Y pueden representar a las personas de forma equitativa?

Para resolver estos problemas, los investigadores propusieron alinear la IA con una representación más profunda de los valores humanos a través del MGE.

El método MGE tiene dos componentes clave: las tarjetas de valores y el gráfico moral.

Constituyen un objetivo de alineación para el entrenamiento de modelos de aprendizaje automático.

  • Fichas de valores captan lo que es importante para una persona en una situación concreta. Consisten en "políticas atencionales constitutivas" (PAC), que son las cosas a las que una persona presta atención cuando toma una decisión significativa. Por ejemplo, al aconsejar a un amigo, uno puede centrarse en comprender sus emociones, sugerirle recursos útiles o considerar los posibles resultados de distintas opciones.
  • El gráfico moral representa visualmente las relaciones entre las cartas de valores, indicando qué valores son más perspicaces o aplicables en un contexto determinado. Para construir el gráfico moral, los participantes comparan diferentes tarjetas de valores, discerniendo cuáles creen que ofrecen una orientación más sabia para una situación concreta. Así se aprovecha la sabiduría colectiva de los participantes para identificar los valores más sólidos y reconocidos para cada contexto.

Para probar el método MGE, los investigadores realizaron un estudio con 500 estadounidenses que utilizaron el proceso para explorar tres temas controvertidos: el aborto, la paternidad y las armas utilizadas en el motín del 6 de enero en el Capitolio.

Los resultados fueron prometedores: el 89,1% de los participantes se sintió bien representado por el proceso y el 89% pensó que el gráfico moral final era justo, aunque su valor no fuera votado como el más sensato.

El estudio también esboza seis criterios que debe poseer un objetivo de alineación para modelar el comportamiento siguiendo los valores humanos: debe ser de grano fino, generalizable, escalable, robusto, legítimo y auditable. Los investigadores sostienen que el gráfico moral producido por MGE cumple bien estos criterios.

Este estudio propone un enfoque similar al de Anthropic IA Constitiutoria Colectiva, que también recauda valores para la alineación de la IA.

Sin embargo, el autor del estudio, Joe Edelman, dijo en X: "Nuestro enfoque, MGE, supera a alternativas como CCAI por @anthropic en legitimidad en un estudio de caso, y ofrece solidez frente a la retórica ideológica. 89% incluso están de acuerdo en que los valores ganadores fueron justos, ¡incluso si su propio valor no ganó!".

Limitaciones

Los enfoques de alineación de la IA que recurren al crowdsourcing para obtener valores del público tienen sus limitaciones.

Por ejemplo, las opiniones discrepantes han sido parte integrante de la toma de decisiones de la sociedad durante siglos, y la historia ha demostrado que la mayoría a menudo puede adoptar los puntos de vista divergentes de la minoría. Ejemplos de ello son la teoría de la evolución de Darwin y las luchas por abolir la esclavitud y conceder el derecho de voto a las mujeres.

Además, aunque la aportación directa del público es democrática, puede llevar al populismo, donde la mayoría podría anular las opiniones minoritarias o desoír el consejo de los expertos.

Otro reto es equilibrar los valores culturales globales o universalistas y los locales o relativistas. Principios ampliamente aceptados en una cultura o región pueden ser controvertidos en otra.

Las constituciones de la IA podrían reforzar los valores occidentales, erosionando potencialmente las opiniones e ideas de los de la periferia.

Aunque este nuevo estudio reconoce sus limitaciones y la necesidad de seguir desarrollándolo, ofrece otra estrategia para crear sistemas de IA que se ajusten a los valores humanos.

Cada intento cuenta si queremos que la IA centralizada sirva a todos de forma justa en el futuro. 

Únete al futuro


SUSCRÍBETE HOY

Claro, conciso y completo. Conozca los avances de la IA con DailyAI

Sam Jeans

Sam es un escritor de ciencia y tecnología que ha trabajado en varias startups de IA. Cuando no está escribiendo, se le puede encontrar leyendo revistas médicas o rebuscando en cajas de discos de vinilo.

×

PDF GRATUITO EXCLUSIVO
Adelántese con DailyAI

Suscríbase a nuestro boletín semanal y reciba acceso exclusivo al último eBook de DailyAI: 'Mastering AI Tools: Su guía 2024 para mejorar la productividad'.

*Al suscribirse a nuestro boletín de noticias, acepta nuestra política de privacidad. Política de privacidad y nuestro Condiciones generales