A medida que los modelos de IA se van incorporando a nuestra vida cotidiana, aumenta la preocupación por las limitaciones y la fiabilidad de sus llamados "guardarraíles".
Los modelos de IA ubicua como GPT-3.5/4/4V et al. incorporan barreras y medidas de seguridad para evitar que produzcan resultados ilícitos, poco éticos o no deseados.
Sin embargo, estos dispositivos de seguridad están lejos de ser impermeables, y los modelos están demostrando su potencial para desprenderse de sus barandillas, o descarrilar, por así decirlo.
Parte del problema radica en que los guardarraíles no siguen el ritmo de la complejidad y diversidad de los modelos.
En las últimas semanas, OpenAI, con el apoyo de Microsoft, ha revelado importantes mejoras en ChatGPT, que le permiten interactuar utilizando sólo la voz y responder a consultas a través de imágenes y texto. Esta versión multimodal apta para imágenes de GPT-4 ha sido bautizada como "GPT-4V".
Paralelamente, Meta anunció la puesta en marcha de un asistente de IA, varios personalidades célebres del chatbot para los usuarios de WhatsApp e Instagram, y un montón de otras funciones de IA de bajo perfil como AI Stickers.
La gente manipuló rápidamente Meta Pegatinas AI para generar imágenes cómicas e impactantes, como Karl Marx desnudo o Mario con un fusil de asalto.
A medida que se intensifica la carrera por comercializar la IA, las salvaguardias diseñadas para controlar los comportamientos de la IA -y evitar que generen contenidos nocivos, desinformen o ayuden en actividades ilícitas- resultan cada vez más endebles.
¿Es la IA constitucional la respuesta?
Para combatirlo, las empresas desarrolladoras de IA se esfuerzan por crear "constituciones de IA", un conjunto de principios y valores fundacionales a los que deben adherirse los modelos de IA. La startup Antrópico fue de los primeros en abogar por la "IA constitucional" en un 2022 papel.
Google DeepMind también estableció normas constitucionales para su chatbot Gorrión en 2022 mantener conversaciones "útiles, correctas e inofensivas".
Las constituciones de la IA de Anthropic derivan principios de diversas fuentes, como la Declaración de Derechos Humanos de la ONU y las condiciones de servicio de Apple. El modelo está dotado de principios morales fundamentales que impulsan el comportamiento ascendente en lugar de imponer guardarraíles desde arriba.
En lugar de entrenar laboriosamente a la IA con innumerables ejemplos humanos de lo que está bien o mal, este planteamiento incorpora un conjunto de normas o principios -una "constitución"- que la IA acata.
Al principio, se presenta una situación a la IA, luego se le pide que critique su respuesta y, por último, que ajuste su comportamiento en función de la solución revisada.
A continuación, el sistema se sumerge en la fase de aprendizaje por refuerzo. Aquí, calibra la calidad de sus propias respuestas, distinguiendo la mejor. Con el tiempo, esta autoevaluación perfecciona su comportamiento.
El giro consiste en que la IA utiliza su bucle de retroalimentación para determinar la recompensa en un método denominado "RL a partir de la retroalimentación de la IA" (RLAIF). Cuando se enfrenta a consultas potencialmente dañinas o engañosas, la IA no se limita a esquivarlas o rechazarlas. En lugar de eso, aborda el asunto de frente, explicando por qué esa petición puede ser problemática.
Es un paso adelante en la creación de máquinas que no sólo computan, sino que también "piensan" de forma estructurada.
Dario Amodei, Consejero Delegado y cofundador de Anthropic, hizo hincapié en el reto que supone comprender el funcionamiento interno de los modelos de IA. Sugiere que tener una constitución haría que las reglas fueran transparentes y explícitas, garantizando que todos los usuarios supieran a qué atenerse.
Y lo que es más importante, también ofrece un medio para responsabilizar al modelo si no se adhiere a los principios esbozados.
A pesar de estos esfuerzos, las constituciones de la IA no están exentas de defectos propios, y modelos de desarrolladores como Anthropic se han planteado como vulnerables a jailbreaks como muchos otros.
No hay vías universalmente aceptadas para entrenar modelos de IA seguros y éticos
Históricamente, los modelos de IA se han perfeccionado utilizando un método llamado aprendizaje por refuerzo mediante retroalimentación humana (RLHF, por sus siglas en inglés), en el que grandes equipos de evaluadores humanos clasifican las respuestas de la IA como "buenas" o "malas".
Aunque eficaz hasta cierto punto, este método ha sido criticado por su falta de precisión y especificidad. Para garantizar la ética y la seguridad de la IA, las empresas exploran ahora soluciones alternativas.
Por ejemplo, OpenAI ha adoptado el enfoque del "equipo rojo", contratando a expertos de diversas disciplinas para probar e identificar los puntos débiles de sus modelos.
El sistema de OpenAI funciona en iteraciones: el modelo de IA produce resultados, los revisores humanos evalúan y corrigen estos resultados basándose en directrices específicas, y el modelo aprende de esta retroalimentación. Los datos de entrenamiento de estos revisores son vitales para la calibración ética del modelo.
ChatGPT suele optar por una respuesta conservadora cuando se enfrenta a temas controvertidos o delicados, evitando a veces una respuesta directa. Esto contrasta con la IA constitucional, en la que el modelo debe elucidar sus reservas cuando se le presentan consultas potencialmente perjudiciales, demostrando activamente un razonamiento basado en sus reglas fundacionales.
En esencia, mientras que ChatGPT se basa en gran medida en la retroalimentación humana para su orientación ética, la IA constitucional utiliza un marco basado en reglas establecidas con mecanismos para la auto-revisión y un énfasis en el razonamiento transparente.
A fin de cuentas, no existe un enfoque único para desarrollar IA "seguras", y algunos, como Elon Musk, critican la idea de una IA "despierta" y desinfectada. Los estudios han demostrado que incluso las IAs constitucionales pueden ser manipuladas para que tengan un comportamiento impredecible.
Rebecca Johnson, investigadora de ética de la IA en la Universidad de Sídney, señaló que los ingenieros de IA y los informáticos suelen abordar los problemas con el objetivo de encontrar soluciones definitivas, lo que no siempre tiene en cuenta las complejidades de la naturaleza humana.
"Tenemos que empezar a tratar las IA generativas como extensiones de los humanos, son un aspecto más de la humanidad", afirmó.
El control exhaustivo de la IA como una especie de simple sistema técnico sólo se convertirá en más difícil a medida que evolucionaY lo mismo puede decirse de los organismos biológicos como nosotros.
La divergencia, provocada o no, es quizá inevitable.