OpenAI ha confirmado un acuerdo de licencia con The Associated Press (AP) para entrenar sus modelos de IA utilizando su archivo de noticias.
La esencia del acuerdo dice que AP proporcionará a OpenAI acceso a su tesoro de historias de texto para el entrenamiento de IA. A cambio, OpenAI extenderá su tecnología a AP, permitiéndole integrar la IA generativa en sus flujos de trabajo.
OpenAI tendrá derecho a extraer datos del archivo de artículos de AP desde 1985.
"La IA generativa es un campo en rápida evolución con enormes implicaciones para la industria periodística. Nos complace que OpenAI reconozca que el contenido informativo basado en hechos y no partidista es esencial para esta tecnología en evolución, y que respete el valor de nuestra propiedad intelectual". dijo Kristin Heitmannvicepresidente primero y director de ingresos de AP.
La práctica de utilizar datos públicos de Internet para entrenar sistemas de IA se está convirtiendo en un punto de controversia. Es probable que esto aumente la popularidad de este tipo de acuerdos privados y patrocinados.
Los grandes modelos lingüísticos (LLM) que alimentan los chatbots de OpenAI, Google, etc., se han entrenado a partir de una cantidad colosal de datos recogidos de fuentes de Internet de acceso público.
Esto incluye contenidos de terceros, como artículos de noticias, entradas de Wikipedia y comentarios de redes sociales y blogs, todos ellos tomados sin permiso explícito o sin conocimiento de los autores.
Esto no está exento de problemas legales y éticos, ya que es improbable que todos estos datos se recopilen legalmente. Al menos, los datos de entrenamiento de IA distorsionan el significado de "abierto" y "accesible al público".
Andres Sawicki, catedrático de Derecho de la Propiedad Intelectual de la Universidad de Miami, comentó: "Los conjuntos de datos incluyen muchos contenidos protegidos por derechos de autor. Los titulares de los derechos no aprueban estas explotaciones. No es difícil concebir más acuerdos como el de AP entre empresas tecnológicas y productores de contenidos en un esfuerzo por construir una "base de datos limpia". El problema es que los conjuntos de datos necesarios para entrenar los modelos son tan masivos que dudo que sea posible conseguir el permiso de un número suficiente de propietarios para que la tecnología resulte práctica."
Esta semana, la Comisión Federal de Comercio de EE.UU. (FTC) investigaciones iniciadas sobre las prácticas de OpenAI en torno al uso de datos en el entrenamiento de modelos. La FTC ha exigido documentación a OpenAI para comprender sus estrategias e identificar incumplimientos.
OpenAI y AP han expresado sentimientos positivos sobre la asociación, afirmando que "creen en la creación y el uso responsables de estos sistemas de IA."