Sistemas de IA generativa, alucinaciones y creciente deuda técnica

A medida que los sistemas de IA, como los grandes modelos lingüísticos (LLM), crecen en tamaño y complejidad, los investigadores descubren intrigantes limitaciones fundamentales.

Estudios recientes de Google y la Universidad de Singapur han desvelado la mecánica que subyace a las "alucinaciones" de la IA -en las que los modelos generan información convincente pero inventada- y la acumulación de "deuda técnica", que podría crear sistemas desordenados y poco fiables con el tiempo.

Más allá de los retos técnicos, alinear las capacidades y los incentivos de la IA con los valores humanos sigue siendo una cuestión abierta.

A medida que empresas como OpenAI avanzan hacia la inteligencia general artificial (AGI), asegurar el camino a seguir implica reconocer los límites de los sistemas actuales.

Sin embargo, reconocer cuidadosamente los riesgos es antitético con el lema de Silicon Valley de "moverse rápido y romper cosas", que caracteriza a la I+D en IA como lo hizo con las innovaciones tecnológicas anteriores.

Estudio 1: los modelos de IA acumulan "deuda técnica

El aprendizaje automático suele promocionarse como continuamente escalable, con sistemas que ofrecen un marco modular e integrado para el desarrollo.

Sin embargo, en segundo plano, los desarrolladores pueden estar acumulando un alto nivel de "deuda técnica" que tendrán que resolver más adelante.

En un Documento de investigación de GoogleEl aprendizaje automático: The High-Interest Credit Card of Technical Debt", los investigadores debaten el concepto de deuda técnica en el contexto de los sistemas de ML.

D. Sculley, CEO de Kaggle e investigador de Google durante muchos años, y sus colegas argumentan que, aunque el ML ofrece potentes herramientas para construir rápidamente sistemas complejos, estas "victorias rápidas" suelen ser engañosas.

La sencillez y la rapidez de implantación de los modelos de ML pueden ocultar las futuras cargas que imponen a la capacidad de mantenimiento y evolución del sistema.

Como describen los autores, esta deuda oculta surge de varios factores de riesgo específicos de ML que los desarrolladores deberían evitar o refactorizar.

He aquí las principales conclusiones:

Los sistemas de ML, por su naturaleza, introducen un nivel de complejidad que va más allá de la mera codificación. Esto puede dar lugar a lo que los autores denominan "erosión de los límites", donde las líneas claras entre los distintos componentes del sistema se difuminan debido a las interdependencias creadas por los modelos de ML. Esto dificulta el aislamiento y la aplicación de mejoras sin afectar a otras partes del sistema.
El documento también destaca el problema del "enredo", en el que los cambios en cualquier parte de un sistema de ML, como las características de entrada o los parámetros del modelo, pueden tener efectos impredecibles en el resto del sistema. La alteración de un pequeño parámetro puede desencadenar una cascada de efectos que afecten al funcionamiento y la integridad de todo el modelo.
Otro problema es la creación de "bucles de retroalimentación ocultos", en los que los modelos de ML influyen en sus propios datos de entrenamiento de forma imprevista. Esto puede dar lugar a sistemas que evolucionan en direcciones no deseadas, lo que complica la gestión y la comprensión del comportamiento del sistema.
Los autores también abordan las "dependencias de datos", como cuando las señales de entrada cambian con el tiempo, que son especialmente problemáticas porque son más difíciles de detectar.

Por qué es importante la deuda técnica

La deuda técnica afecta a la salud y eficiencia a largo plazo de los sistemas de ML.

Cuando los desarrolladores se apresuran a poner en marcha los sistemas de ML, pueden ignorar las complejidades de la gestión de datos o los riesgos de "pegar" diferentes partes.

Esto puede funcionar a corto plazo, pero puede dar lugar a una maraña difícil de diseccionar, actualizar o incluso comprender más adelante.

⚠️ ⚠️ ⚠️ ⚠️ ⚠️ ⚠️ ⚠️

GenAI es una avalancha de deuda técnica* a punto de producirse

Esta misma semana
👉ChatGPT se volvió "loco" casi sin explicación real
👉Sora no puede deducir sistemáticamente cuántas patas tiene un gato
👉La intervención de Gemini sobre la diversidad se salió de madre.... pic.twitter.com/qzrVlpX9yz

- Gary Marcus @ AAAI 2024 (@GaryMarcus) 24 de febrero de 2024

Por ejemplo, el uso de modelos ML tal cual a partir de una biblioteca parece eficiente hasta que te encuentras con una pesadilla de "código pegajoso", en la que la mayor parte del sistema no es más que cinta adhesiva que mantiene unidas piezas que no estaban destinadas a encajar.

O las "junglas de oleoductos", descritas en un documento anterior de D. Sculley y colegas, donde la preparación de datos se convierte en un laberinto de procesos entrelazados, por lo que hacer un cambio parece desactivar una bomba.

Implicaciones de la deuda técnica

Para empezar, cuanto más enmarañado esté un sistema, más difícil será mejorarlo o mantenerlo. Esto no sólo ahoga la innovación, sino que puede dar lugar a problemas más siniestros.

Por ejemplo, si un sistema de ML empieza a tomar decisiones basadas en datos obsoletos o sesgados porque es demasiado engorroso actualizarlos, puede reforzar o amplificar los prejuicios sociales.

Además, en aplicaciones críticas como sanidad o vehículos autónomos, esa deuda técnica podría tener consecuencias nefastas, no sólo en términos de tiempo y dinero, sino en el bienestar humano.

Como describe el estudio, "no toda la deuda es necesariamente mala, pero la deuda técnica tiende a agravarse. Aplazar el trabajo para pagarla se traduce en mayores costes, fragilidad del sistema y menores tasas de innovación."

También es un recordatorio para que las empresas y los consumidores exijan transparencia y responsabilidad en las tecnologías de IA que adoptan.

Al fin y al cabo, el objetivo es aprovechar el poder de la IA para mejorar la vida, no estancarse en un ciclo interminable de pago de deudas técnicas.

Estudio 2: No se pueden separar las alucinaciones de los LLM

En un estudio relacionado de la Universidad Nacional de Singapur, los investigadores Ziwei Xu, Sanjay Jain y Mohan Kankanhalli investigaron las limitaciones inherentes a los LLM.

"La alucinación es inevitable: An Innate Limitation of Large Language Models" explora la naturaleza de las alucinaciones de la IA, que describen casos en los que los sistemas de IA generan información plausible pero inexacta o totalmente inventada.

Los fenómenos de alucinación plantean un reto técnico importante, ya que ponen de manifiesto una brecha fundamental entre el resultado de un modelo de IA y lo que se considera la "verdad de base", es decir, un modelo ideal que siempre produce información correcta y lógica.

Comprender cómo y por qué alucina la IA generativa es primordial a medida que la tecnología se integra en sectores críticos como el policial y judicial, el sanitario y el jurídico.

¿Y si se pudiera *probar* que las alucinaciones son inevitables en los LLM?

¿Cambiaría eso
- ¿Qué opina de los LLM?
- ¿Cuánto invertiría en ellos?
- ¿En qué medida daría prioridad a la investigación en alternativas?

Un nuevo artículo lo demuestra: https://t.co/r0eP3mFxQg
h/t... pic.twitter.com/Id2kdaCSGk

- Gary Marcus @ AAAI 2024 (@GaryMarcus) 25 de febrero de 2024

Fundamentos teóricos de las alucinaciones

El estudio comienza estableciendo un marco teórico para comprender las alucinaciones en los LLM.

Los investigadores crearon un modelo teórico conocido como "mundo formal". Este entorno simplificado y controlado les permitió observar las condiciones en las que los modelos de IA no se ajustan a la verdad sobre el terreno.

A continuación probaron dos grandes familias de LLM:

Llama 2: En concreto, se utilizó la versión de 70 mil millones de parámetros (llama2-70b-chat-hf) accesible en HuggingFace. Este modelo representa una de las entradas más recientes en el ámbito de los grandes modelos lingüísticos, diseñado para una amplia gama de tareas de generación y comprensión de textos.
Transformadores Generativos Preentrenados (GPT): El estudio incluía pruebas con GPT-3.5, concretamente el modelo gpt-3.5-turbo-16k, de 175.000 millones de parámetros, y GPT-4 (gpt-4-0613), cuyo número exacto de parámetros sigue sin revelarse.

A los LLM se les pidió que enumeraran cadenas de una longitud determinada utilizando un alfabeto específico, una tarea computacional aparentemente sencilla.

En concreto, los modelos debían generar todas las cadenas posibles de longitudes comprendidas entre 1 y 7, utilizando alfabetos de dos caracteres (por ejemplo, {a, b}) y tres caracteres (por ejemplo, {a, b, c}).

Las salidas se evaluaron en función de si contenían todas y sólo las cadenas de la longitud especificada del alfabeto dado.

Hallazgos

Los resultados mostraron una clara limitación en la capacidad de los modelos para completar correctamente la tarea a medida que aumentaba la complejidad (es decir, a medida que aumentaba la longitud de la cadena o el tamaño del alfabeto). En concreto:

Los modelos funcionaron adecuadamente con cadenas cortas y alfabetos pequeños, pero flaquearon a medida que aumentaba la complejidad de la tarea.
En particular, ni siquiera el modelo avanzado GPT-4, el LLM más sofisticado disponible en la actualidad, pudo listar con éxito todas las cadenas a partir de ciertas longitudes.

Esto demuestra que las alucinaciones no son un simple fallo que pueda parchearse o corregirse, sino un aspecto fundamental de la forma en que estos modelos comprenden y reproducen el lenguaje humano.

Como describe el estudio, "Los LLM no pueden aprender todo de las funciones computables y, por tanto, siempre alucinará. Puesto que el mundo formal es a parte de el mundo real que es mucho más complicadas, las alucinaciones también inevitable para los LLM del mundo real".

Las implicaciones para las aplicaciones de alto riesgo son enormes. En sectores como la sanidad, las finanzas o el derecho, donde la exactitud de la información puede tener graves consecuencias, confiar en un LLM sin un mecanismo de seguridad para filtrar estas alucinaciones podría conducir a graves errores.

Este estudio llamó la atención del experto en IA Gary Marcus y del eminente psicólogo cognitivo Steven Pinker.

La alucinación es inevitable con los Grandes Modelos Lingüísticos debido a su diseño: no hay representación de hechos o cosas, sólo intercorrelaciones estadísticas. Nueva prueba de "una limitación innata" de los LLM. https://t.co/Hl1kqxJGXt

- Steven Pinker (@sapinker) 25 de febrero de 2024

Hay cuestiones más profundas en juego

La acumulación de deuda técnica y la inevitabilidad de las alucinaciones en los LLM son sintomáticas de un problema más profundo: el paradigma actual de desarrollo de la IA puede estar intrínsecamente desajustado para crear sistemas altamente inteligentes y alineados de forma fiable con los valores humanos y la verdad de los hechos.

En campos delicados, no basta con tener un sistema de IA que acierte la mayoría de las veces. Tanto la deuda técnica como las alucinaciones amenazan la integridad del modelo con el paso del tiempo.

Solucionar esto no es sólo un reto técnico, sino multidisciplinar, que requiere la aportación de la ética de la IA, la política y la experiencia específica del dominio para navegar con seguridad.

Ahora mismo, esto parece estar en contradicción con los principios de una industria que hace honor al lema de "moverse rápido y romper cosas".

Esperemos que los humanos no sean las "cosas".

Sistemas de IA generativa, alucinaciones y creciente deuda técnica