Un nuevo estudio publicado en Nature revela que los modelos de IA, incluidos los grandes modelos lingüísticos (LLM), degradan rápidamente su calidad cuando se entrenan con datos generados por modelos de IA anteriores.
Este fenómeno, denominado "colapso del modelo", podría erosionar la calidad de los futuros modelos de IA, sobre todo a medida que se publiquen en Internet más contenidos generados por IA y, por tanto, reciclados y reutilizados en los datos de entrenamiento de los modelos.
Investigadores de la Universidad de Cambridge, la Universidad de Oxford y otras instituciones han estudiado este fenómeno. experimentos realizados que demuestra que cuando los modelos de IA se entrenan repetidamente con datos producidos por versiones anteriores de ellos mismos, empiezan a generar resultados sin sentido.
Esto se observó en distintos tipos de modelos de IA, incluidos los modelos lingüísticos, los autocodificadores variacionales y los modelos de mezcla gaussiana.
En un experimento clave con modelos lingüísticos, el equipo afinó el modelo OPT-125m en el conjunto de datos WikiText-2 y luego lo utilizó para generar texto nuevo.
Este texto generado por la IA se utilizaba entonces para entrenar a la siguiente "generación" del modelo, y el proceso se repetía una y otra vez.
No pasó mucho tiempo antes de que los modelos empezaran a producir textos cada vez más improbables y disparatados.
En la novena generación, el modelo generaba un galimatías completo, como enumerar múltiples tipos inexistentes de "jackrabbits" cuando se le preguntaba por las torres de las iglesias inglesas.
Los investigadores también observaron cómo los modelos pierden información sobre sucesos "raros" o poco frecuentes antes del colapso total.
Esto es alarmante, ya que los sucesos raros suelen estar relacionados con grupos marginados o atípicos. Sin ellos, los modelos corren el riesgo de concentrar sus respuestas en un estrecho espectro de ideas y creencias, reforzando así los sesgos.
Las empresas de IA son conscientes de ello, y por eso están cerrando acuerdos con empresas de noticias y editores para asegurarse un flujo constante de información de alta calidad, escrita por humanos y relevante desde el punto de vista temático.
"El mensaje es que tenemos que tener mucho cuidado con lo que acaba en nuestros datos de formación". estudiar coautor Zakhar Shumaylov de la Universidad de Cambridge dijo a Nature. "De lo contrario, las cosas siempre irán mal, como es lógico".
Para agravar este efecto, un reciente estudiar del Dr. Richard Fletcher, Director de Investigación del Instituto Reuters para el Estudio del Periodismo, descubrió que casi la mitad (48%) de los sitios de noticias más populares de todo el mundo son ahora inaccesibles para los rastreadores de OpenAI, con los rastreadores de IA de Google bloqueados en 24% de sitios.
Como resultado, los modelos de IA tienen acceso a un conjunto de datos recientes y de alta calidad más reducido que antes, lo que aumenta el riesgo de que se entrenen con datos obsoletos o de baja calidad.
Soluciones al colapso del modelo
En cuanto a las soluciones, los investigadores afirman que mantener el acceso a fuentes de datos originales, generados por humanos, es vital para el futuro de la IA.
El seguimiento y la gestión de los contenidos generados por IA también serían útiles para evitar que contaminen accidentalmente los conjuntos de datos de entrenamiento. Eso sería muy complicado, ya que los contenidos generados por IA son cada vez más imposibles de detectar.
Los investigadores proponen cuatro soluciones principales:
- Marca de agua en los contenidos generados por IA para distinguirlos de los creados por humanos
- Crear incentivos para que los seres humanos sigan produciendo contenidos de alta calidad
- Desarrollar métodos de filtrado y curación más sofisticados para los datos de formación.
- Explorar formas de preservar y priorizar el acceso a la información original no generada por la IA.
El colapso de los modelos es un problema real
Este estudio no es ni mucho menos el único que explora el colapso de modelos.
No hace mucho, investigadores de Stanford comparó dos escenarios en los que puede producirse un colapso del modelo: uno en el que los datos de entrenamiento de cada nueva iteración del modelo sustituyen totalmente a los datos anteriores y otro en el que se añaden datos sintéticos al conjunto de datos existente.
Cuando se sustituyeron los datos, el rendimiento del modelo se deterioró rápidamente en todas las arquitecturas probadas.
Sin embargo, cuando se permitió que los datos se "acumularan", se evitó en gran medida el colapso del modelo. Los sistemas de IA mantuvieron su rendimiento y, en algunos casos, mostraron mejoras.
Así que, a pesar de las preocupaciones creíbles, el colapso del modelo no es una conclusión inevitable: depende de la cantidad de datos generados por IA que haya en el conjunto y de la proporción de datos sintéticos y auténticos.
Cuando el colapso del modelo empiece a ser evidente en los modelos fronterizos, puede estar seguro de que las empresas de IA se apresurarán a buscar una solución a largo plazo.
Aún no hemos llegado a ese punto, pero podría ser cuestión de cuándo, no de si llegaremos.