Investigadores de la Universidad de Texas en Austin han desarrollado un innovador marco para entrenar modelos de IA en imágenes muy corruptas.
Conocido como Ambient Diffusion, este método permite a los modelos de IA "inspirarse" en imágenes sin copiándolos directamente.
Los modelos convencionales de conversión de texto en imagen utilizados por DALL-EMidjourney y Stable Diffusion corren el riesgo de infringir los derechos de autor porque están entrenados con conjuntos de datos que incluyen imágenes protegidas por derechos de autor, lo que les lleva a veces a replicar inadvertidamente esas imágenes.
Ambient Diffusion le da la vuelta a la tortilla entrenando modelos con datos deliberadamente corruptos.
En el estudiarEl equipo de investigación, formado por Alex Dimakis y Giannis Daras, del departamento de Ingeniería Eléctrica e Informática de UT Austin, y Constantinos Daskalakis, de MITentrenó un modelo Stable Diffusion XL en un conjunto de datos de 3.000 imágenes de famosos.
Al principio, se observó que los modelos entrenados con datos limpios copiaban descaradamente los ejemplos de entrenamiento.
Sin embargo, cuando los datos de entrenamiento se corrompían -enmascarando aleatoriamente hasta 90% de los píxeles-, el modelo seguía produciendo imágenes únicas de alta calidad.
Esto significa que la IA nunca está expuesta a versiones reconocibles de las imágenes originales, lo que le impide copiarlas.
"Nuestro marco permite controlar el equilibrio entre memorización y rendimiento". explica Giannis Darasestudiante de informática que dirigió el trabajo.
"A medida que aumenta el nivel de corrupción encontrado durante el entrenamiento, disminuye la memorización del conjunto de entrenamiento".
Aplicaciones científicas y médicas
Los usos de Ambient Diffusion van más allá de la resolución de problemas de derechos de autor.
Según el profesor Adam Klivans, colaborador del proyecto, "el marco podría resultar útil también para aplicaciones científicas y médicas. Esto sería válido básicamente para cualquier investigación en la que resulte caro o imposible disponer de un conjunto completo de datos no corrompidos, desde la obtención de imágenes de agujeros negros hasta ciertos tipos de resonancias magnéticas."
Esto es especialmente beneficioso en campos con acceso limitado a datos no corruptos, como por ejemplo astronomía y física de partículas.
En estos campos y en otros, los datos pueden ser extremadamente ruidosos, de mala calidad o escasos, de modo que los datos significativos se ven superados en número por los datos inútiles. Enseñar a los modelos a utilizar los datos subóptimos de forma más eficiente sería útil en este caso.
Si se perfeccionara el enfoque de la difusión ambiental, las empresas de IA podrían crear modelos funcionales de texto a imagen respetando los derechos de los creadores de contenidos originales y evitando problemas legales.
Aunque eso no solucionaría el problema de que las herramientas de imagen por IA reduzcan la oferta de trabajo de los verdaderos artistas, al menos protegería sus obras de ser reproducidas accidentalmente en productos.