En la frenética búsqueda de datos de entrenamiento de inteligencia artificial, los gigantes tecnológicos OpenAI, Google y Meta se han saltado al parecer las políticas corporativas, han alterado sus normas y han hablado de eludir la ley de derechos de autor.
A Investigación del New York Times revela hasta dónde han llegado estas empresas para recopilar información en línea con la que alimentar sus sistemas de IA ávidos de datos.
A finales de 2021, los investigadores de OpenAI desarrollaron una herramienta de reconocimiento de voz llamada Whisper para transcribir vídeos de YouTube cuando se enfrentan a una escasez de datos de texto en inglés fiables.
A pesar de las discusiones internas sobre la posible violación de las normas de YouTube, que prohíben utilizar sus vídeos para aplicaciones "independientes",
NYT descubrió que OpenAI transcribió finalmente más de un millón de horas de contenido de YouTube. Greg Brockman, presidente de OpenAI, colaboró personalmente en la recopilación de los vídeos. El texto transcrito se introdujo en GPT-4.
Google también habría transcrito vídeos de YouTube para recopilar texto para sus modelos de inteligencia artificial, lo que podría suponer una infracción de los derechos de autor de los creadores de los vídeos.
Esto se produce días después de que el CEO de YouTube dijera que tal actividad violaría la condiciones de servicio de la empresa y socavan a los creadores.
En junio de 2023, el departamento jurídico de Google solicitó cambios en la política de privacidad de la empresa, permitiendo el acceso público al contenido de Google Docs y otras aplicaciones de Google para una gama más amplia de productos de IA.
Meta, que se enfrenta a su propia escasez de datos, ha considerado varias opciones para adquirir más datos de entrenamiento.
Los ejecutivos hablaron de pagar por los derechos de licencia de libros, comprar la editorial Simon & Schuster e incluso recoger material protegido por derechos de autor de Internet sin permiso, arriesgándose a posibles demandas.
Los abogados de Meta argumentaron que el uso de datos para entrenar sistemas de inteligencia artificial debería incluirse en el "uso justo", citando una decisión judicial de 2015 relacionada con el proyecto de escaneado de libros de Google.
Preocupaciones éticas y futuro de los datos de entrenamiento de la IA
Las acciones colectivas de estas empresas tecnológicas ponen de relieve la importancia crítica de los datos en línea en la pujante industria de la IA.
Estas prácticas han suscitado preocupación por la vulneración de los derechos de autor y la justa compensación a los creadores.
Justine Bateman, directora de cine y autora, denunció ante la Oficina de Derechos de Autor que modelos de inteligencia artificial se apropiaban de contenidos -incluidos sus escritos y películas- sin permiso ni remuneración.
"Se trata del mayor robo de Estados Unidos, y punto", declaró en una entrevista.
En las artes visuales, MidJourney y otros modelos de imagen se han demostrado que genera derechos de autor contenido, como escenas de películas de Marvel.
Algunos expertos predicen que los datos en línea de alta calidad podrían agotarse en 2026, por lo que las empresas están explorando métodos alternativos, como la generación de datos sintéticos utilizando ellos mismos modelos de IA. Sin embargo, los datos de entrenamiento sintéticos conllevan sus propios riesgos y desafíos y podrían perjudicar repercuten en la calidad de los modelos.
El propio Sam Altman, CEO de OpenAI, reconoció la naturaleza finita de los datos en línea en un discurso pronunciado en una conferencia tecnológica en mayo de 2023: "Se acabarán", dijo.
Sy Damle, abogado que representa a Andreessen Horowitz, una empresa de capital riesgo de Silicon Valley, también habló del reto: "La única forma práctica de que existan estas herramientas es que puedan entrenarse con cantidades masivas de datos sin tener que licenciar esos datos. Los datos necesarios son tan masivos que ni siquiera las licencias colectivas pueden funcionar".
El NYT y OpenAI se enzarzan en un amarga demanda por derechos de autorEl Times solicita una indemnización millonaria por daños y perjuicios.
OpenAI contraatacó, acusando al Times de piratear" sus modelos para recuperar ejemplos de infracción de los derechos de autor.
Por "pirateo" entienden el jailbreaking o red-teaming, que consiste en atacar el modelo con mensajes especialmente formulados para manipular los resultados.
El NYT dijo que no tendrían que recurrir a modelos de jailbreaking si las empresas de IA fueran transparentes sobre los datos que han utilizado.
Sin duda, esta investigación interna hace que el robo de datos de Big Tech sea ética y legalmente inaceptable.
Con las demandas acumulándose, el panorama jurídico que rodea el uso de datos en línea para el entrenamiento de IA es extremadamente precario.