Más autores intentan demandar a OpenAI por utilizar material protegido por derechos de autor

10 de julio de 2023

chatgpt Caso jurídico

Las demandas contra la IA se suceden: la cómica y escritora estadounidense Sarah Silverman y los autores Christopher Golden y Richard Kadrey presentan demandas contra OpenAI y Meta.

El trío alega infracción de los derechos de autor, afirmando que su trabajo se utilizó ilegalmente para entrenar ChatGPT y LLaMA, el modelo de gran lenguaje (LLM) de código abierto de Meta. 

ChatGPT se basa en el análisis de una cantidad colosal de datos procedentes de Internet: son estos datos los que le enseñan a manejar el lenguaje natural. Hay muchas dudas sobre el origen de estos datos de entrenamiento y los métodos utilizados para obtenerlos, y las sospechas aumentan ahora que los creadores descubren que su trabajo puede estar contenido en esos datos de entrenamiento. 

En esta última demanda, se acusa a OpenAI y Meta de utilizar los libros protegidos por derechos de autor de los demandantes como datos de entrenamiento sin su consentimiento. 

Las demandas sugieren que los materiales procedían de sitios web de "bibliotecas en la sombra". Las bibliotecas en la sombra contienen grandes cantidades de información copiada ilegalmente, e incluyen sitios como Bibliotik, Library Genesis y Z-Library. Las bibliotecas en la sombra son similares a los torrents: son difíciles de prevenir y controlar. 

Se acusa a OpenAI de resumir con precisión 3 libros cuando se le pide: "The Bedwetter" de Silverman, "Ararat" de Golden y "Sandman Slim" de Kadrey. Aunque la IA podría aprender sobre estos libros a partir de resúmenes de Wikipedia y similares, esto no explicaría el nivel de detalle que contienen los resúmenes. 

La demanda contra Meta nombra varias obras de Kadrey y Golden, además de "The Bedwetter", en referencia a un documento de Meta que indica el uso de material de bibliotecas en la sombra, que la demanda califica de "descaradamente ilegal". 

Documento de Meta dice: "Incluimos dos corpus de libros en nuestro conjunto de datos de entrenamiento: el Proyecto Gutenberg, que contiene libros que son de dominio público, y la sección Books3 de ThePile (Gao et al., 2020), un conjunto de datos disponible públicamente para el entrenamiento de grandes modelos lingüísticos." 

Joseph Saveri y Matthew Butterick, abogados que representan al trío, han manifestado su creciente preocupación por la inquietante capacidad de ChatGPT para imitar textos protegidos por derechos de autor.

Investigación ha demostrado que GPT-4 aprendió casi definitivamente de obras protegidas por derechos de autor.

Sin embargo, esto podría deberse a que son populares y circulan ampliamente o aparecen en las lecturas de los cursos escolares y universitarios. 

En cualquier caso, eso no eximiría estrictamente a las empresas de IA de utilizar esos textos en sus datos de entrenamiento.

Aumentan las demandas relacionadas con la IA

La IA se ha convertido en el centro de una tormenta de demandas, muchas de las cuales se consideran las primeras de este tipo. 

Los mismos abogados también representan a los autores estadounidenses Mona Awad y Paul Tremblay en un demanda colectiva distinta pero casi idéntica contra OpenAI. 

Y de nuevo, ese mismo equipo legal, Saveri y Butterick, están en representación de 3 artistas - Sarah Andersen, Kelly McKernan y Karla Ortiz - en una demanda contra los generadores de imágenes Stability AI y Midjourney. 

Ese mismo bufete representó a un caso contra Microsft y GitHubalegando que su herramienta de IA Copilot AI se beneficiaba del trabajo de programadores de código abierto. Se trata de un caso muy similar: los demandantes alegan que la herramienta de IA se entrena con información que contiene datos de "código abierto" extraídos ilegalmente. 

En este caso, alegan los demandados, "la Sección 1202(b) de la Ley de Derechos de Autor del Milenio Digital de Estados Unidos "trata de 'copias ... de una obra' idénticas, no de fragmentos y adaptaciones extraviadas". Las empresas de IA pueden argumentar de forma similar contra los autores, sugiriendo que los resúmenes de sus obras son insuficientes para apoyar su argumento de que los libros aparecen en los datos de entrenamiento en su totalidad.

En cualquier caso, las acusaciones se acumulan, lo que indica una tendencia al aumento de las presiones legales sobre las empresas de IA.

La normativa sobre IA, como la Ley de AI de la UE van a exigir a las empresas que revelen información sobre los datos protegidos por derechos de autor que contienen sus datos de formación. Aún está por ver si tendrá el efecto deseado. 

Únete al futuro


SUSCRÍBETE HOY

Claro, conciso y completo. Conozca los avances de la IA con DailyAI

Sam Jeans

Sam es un escritor de ciencia y tecnología que ha trabajado en varias startups de IA. Cuando no está escribiendo, se le puede encontrar leyendo revistas médicas o rebuscando en cajas de discos de vinilo.

×

PDF GRATUITO EXCLUSIVO
Adelántese con DailyAI

Suscríbase a nuestro boletín semanal y reciba acceso exclusivo al último eBook de DailyAI: 'Mastering AI Tools: Su guía 2024 para mejorar la productividad'.

*Al suscribirse a nuestro boletín de noticias, acepta nuestra política de privacidad. Política de privacidad y nuestro Condiciones generales