Más de 16.000 nombres de artistas han sido relacionados con el entrenamiento no consentido de los modelos de generación de imágenes de Midjourney.
La base de datos de artistas de Midjourney se adjunta a una demanda enmendada presentada contra Stability AI, DeviantArt y Midjourney, archivado en la Prueba J, y en una hoja de cálculo pública de Google filtrada recientemente, parte de la cual puede verse en el Archivo de Internet.
El artista Jon Lam compartió capturas de pantalla en X de un chat de Discord de Midjourney en el que los desarrolladores discuten el uso de nombres de artistas y estilos de Wikipedia y otras fuentes.
Se cree que la hoja de cálculo procedía originalmente del equipo de desarrollo de Midjourney y se cuadra con los chats de Discord filtrados de los desarrolladores de Midjourney, que aluden a la obra del artista asignada a "estilos".
Al codificar el trabajo de los artistas como "estilos", Midjourney puede recrear eficazmente obras en su estilo.
Lam escribe: "Los desarrolladores de Midjourney fueron sorprendidos discutiendo sobre blanqueo y creando una base de datos de artistas (que han sido deshumanizados hasta estilos".
Lam también compartió vídeos de listas de artistas, incluidos los utilizados para los estilos Midjourney y otra lista de "artistas propuestos". Numerosos usuarios de X declararon que sus nombres figuraban en estas listas.
Los desarrolladores de Midjourney fueron sorprendidos discutiendo sobre el blanqueo y creando una base de datos de artistas (que han sido deshumanizados hasta estilos) para entrenar a Midjourney. Esto ha sido presentado como prueba para la demanda. Ingenieros de Prompt, sus "habilidades" no son suyashttps://t.co/wAhsNjt5Kz pic.twitter.com/EBvySMQC0P
- Jon Lam #CreateDontScrape (@JonLamArt) 31 de diciembre de 2023
Una captura de pantalla parece mostrar una declaración del Director General de Midjourney, David Holz, celebrando la incorporación de 16.000 artistas al programa de formación.
Otra muestra a un desarrollador de Midjourney comentando que hay que "blanquearlo" a través de un "Códice", aunque, sin contexto, es difícil saber si se refiere al trabajo de los artistas.
Otros (no empleados de Midjourney) en esa misma conversación se refieren a cómo el procesamiento de obras de arte a través de un modelo de IA esencialmente las desvincula de los derechos de autor.
Uno dice: "todo lo que tienes que hacer es utilizar esos conjuntos de datos raspados y olvidarte convenientemente de lo que utilizaste para entrenar el modelo. Boom problemas legales resueltos para siempre".
Cómo evolucionan los casos judiciales
En los casos legales presentados contra Midjourney, Stability AI, y también OpenAI, Meta y Google (pero por trabajos basados en texto, en lugar de imágenes), artistas, escritores y otros han tenido dificultades para demostrar que su trabajo está realmente "dentro" del modelo al pie de la letra.
Esa sería la pistola humeante que necesitan para demostrar la violación de los derechos de autor.
Los derechos de autor, en general, siguen estando mal definidos en la era de la IA. Los modelos de IA se entrenan con datos que tienen que venir de alguna parte, y ¿qué mejor fuente para encontrar esos datos que Internet?
Los desarrolladores "raspan" lo que se denomina datos "abiertos", "de código abierto" o "públicos" de Internet, pero, de nuevo, estos conceptos están mal definidos. Podría decirse que cuando los desarrolladores de IA olieron la inminente fiebre del oro, se apoderaron de todos los datos "abiertos" de Internet que pudieron y los utilizaron para entrenar sus modelos.
Los procesos legales son lentos; en comparación, la IA va a la velocidad de la luz. A los desarrolladores les resultó muy fácil burlar la ley de derechos de autor y entrenar modelos mucho antes de que los titulares de los derechos y la ley que rige la propiedad intelectual pudieran reaccionar.
El proceso de reacción ya está en marcha, pero tanto el proceso de formación de la IA como el proceso técnico que implica la generación de resultados de la IA (por ejemplo, texto o imágenes) a partir de las entradas de los usuarios desafían la naturaleza de la ley de propiedad intelectual.
En concreto, es a) difícil demostrar que los modelos de IA se entrenan definitivamente con material protegido por derechos de autor y b) difícil demostrar que sus resultados reproducen suficientemente el material protegido por derechos de autor.
También está la cuestión de la responsabilidad. Empresas de IA como OpenAI y Midjourney utilizaron, al menos en parte, datos recopilados por otros en lugar de recopilarlos ellos mismos. Por lo tanto, ¿no serían los recolectores de datos originales los responsables de la infracción?
En el contexto de esta situación reciente en Midjourney, los modelos de Midjourney, como otros, siempre reproducirán una mezcla de obras contenidas en sus datos. Los artistas no pueden demostrar fácilmente qué piezas han utilizado.
Por ejemplo, cuando un reciente caso de derechos de autor contra Midjourney, Stability AI y DeviantArt fue destituido (desde se ha vuelto a presentar con nuevos demandantes), el juez federal Orrick detectó varios defectos en la forma en que se enmarcaban las demandas, en particular en su comprensión del funcionamiento de los generadores de imágenes de IA.
La demanda original alegaba que Stability AI, al entrenar su modelo Stable Diffusion, almacenaba copias comprimidas de las imágenes.
Stability AI lo refutó, aclarando que el proceso de entrenamiento implica extraer atributos como líneas, sombras y colores y desarrollar parámetros basados en estos atributos en lugar de almacenar copias de las imágenes.
La sentencia de Orrick puso de relieve la necesidad de que los demandantes modifiquen sus demandas para representar con mayor precisión el funcionamiento de estos modelos de IA.
Esto incluye la necesidad de una explicación más clara de si la demanda contra Midjourney se debió a su uso de Stable Diffusion, a su uso independiente de imágenes de entrenamiento, o a ambos (ya que Midjourney también está siendo acusada de utilizar los modelos de Stability AI, que supuestamente utilizan obras protegidas por derechos de autor).
Otro reto para los demandantes es demostrar que los resultados de Midjourney son sustancialmente similares a sus obras de arte originales. Orrick señaló que los propios demandantes admitían que era improbable que las imágenes resultantes de Stable Diffusion se parecieran mucho a cualquier imagen específica de los datos de entrenamiento.
A partir de ahora, el caso está vivoEl tribunal denegó los últimos intentos de las empresas de IA de desestimar las demandas de los artistas.
Los tecnócratas de Gen Ai quieren hacerles creer que la demanda está muerta o ha sido desestimada, pero no, la demanda sigue viva y coleando, y se han añadido más pruebas y demandantes al expediente.
Casos actualizados aquí.https://t.co/uTqs6grWRE
- Jon Lam #CreateDontScrape (@JonLamArt) 2 de enero de 2024
.
Uso del conjunto de datos LAION en la mezcla
Los casos legales presentados contra Midjourney y compañía también hacían hincapié en su posible uso del conjunto de datos LAION-5B, una compilación de 5.850 millones de imágenes procedentes de Internet, incluidos contenidos protegidos por derechos de autor.
Stanford criticó recientemente a LAION por contener imágenes sexuales ilícitas, incluidos abusos sexuales a menores y diversos contenidos sexistas, racistas y deplorables en general, todo lo cual ahora también "vive" dentro de los modelos de IA de los que la sociedad está empezando a depender para usos creativos y profesionales.
Sus implicaciones a largo plazo son objeto de acalorado debate, pero el hecho de que estas IA se entrenen, en primer lugar, con trabajos robados y, en segundo lugar, con contenidos ilegales, no arroja una luz positiva sobre el desarrollo de la IA en general.
Los comentarios de los desarrolladores de Midjourney han sido muy criticados en las redes sociales. el foro de Y Combinator.
Es muy probable que en 2024 se cocinen más encendidos debates legales, y el capítulo del salvaje Oeste del desarrollo de la IA podría estar llegando a su fin.