En la loca carrera por dominar la industria de la IA, los gigantes tecnológicos están traspasando las fronteras éticas y poniendo a prueba los límites de la confianza pública.
Un patrón de revelaciones recientes hace saltar las alarmas sobre la privacidad de los datos, la competencia leal y la concentración de poder y talento.
En primer lugar, un investigación de Proof News y WIRED descubrió que Apple, NVIDIA, Anthropic y Salesforce han estado utilizando un conjunto de datos que contiene subtítulos de más de 170.000 vídeos de YouTube para entrenar sus modelos de IA.
Este conjunto de datos, conocido como "YouTube Subtitles", se recopiló sin el consentimiento de los creadores de contenidos, lo que podría suponer una violación de las condiciones de servicio de YouTube.
La escala de esta operación de extracción de datos es asombrosa. Incluye contenidos de instituciones educativas como Harvard, YouTubers populares como MrBeast y PewDiePie, e incluso grandes medios de noticias como The Wall Street Journal y la BBC.
La investigación revela que un conjunto de datos utilizado para el entrenamiento de IA gen por Apple & otros contiene transcripciones de YouTube protegidas por derechos de autor a las que se ha accedido sin permiso. Más información:
- El conjunto de datos Pile contiene transcripciones de 170.000 vídeos de YouTube.
- Utilizado por Apple, AnthropicNvidia, Salesforce y más... pic.twitter.com/RE0UjhumA3- Ed Newton-Rex (@ednewtonrex) 16 de julio de 2024
YouTube aún no ha reaccionado, pero en abril, Neal Mohan, consejero delegado de OpenAI, dijo que el posible uso de vídeos para entrenar el modelo de texto a vídeo Sora violaría sus condiciones de servicio, declarando a Bloomberg: "Si Sora utilizara contenidos de YouTube sería una "clara violación" de sus condiciones de servicio".
OpenAI no está entre los acusados en esta ocasión, y no sabemos si YouTube intentará tomar medidas si se demuestra la veracidad de las nuevas acusaciones.
No es ni mucho menos la primera vez que las empresas tecnológicas se ven en el punto de mira por sus prácticas de uso de datos.
En 2018, Facebook se enfrentó a un intenso escrutinio por el escándalo de Cambridge Analytica, en el que se recopilaron datos de millones de usuarios sin consentimiento para publicidad política.
Más pertinente para la IA, en 2023 se descubrió que una conjunto de datos Books3que contenía más de 180.000 libros protegidos por derechos de autor, se había utilizado para entrenar modelos de IA sin el permiso de los autores. Esto provocó una oleada de demandas contra empresas de IA, en las que los autores alegaban infracción de los derechos de autor.
Este es sólo un ejemplo de una pila cada vez mayor de demandas que emanan de todos los rincones de las industrias creativas. Universal Music Group, Sony Music y Warner Records son algunas de las entidades más prolíficas que han añadido... sus nombres a la lista tras unirse para atacar a las empresas de inteligencia artificial de conversión de texto en audio Udio y Suno.
En su prisa por construir modelos de IA más avanzados, parece como si las empresas tecnológicas hubieran adoptado un enfoque de "pedir perdón, no permiso" para la adquisición de datos.
La fusión Microsoft-Inflection
Mientras se desarrolla el escándalo de YouTube, la reciente contratación por parte de Microsoft de la startup de IA Inflection ha llamado la atención de los reguladores británicos.
La Autoridad de la Competencia y los Mercados (CMA) ha abierto una investigación de fase uno sobre fusiones, para averiguar si esta contratación masiva constituye una fusión de facto que podría ahogar la competencia en el sector de la IA.
Este incisivo movimiento de Microsoft incluía Mustafa Suleyman, cofundador de Inflection. (antiguo ejecutivo de Google DeepMind) y una parte significativa del personal de la startup.
En su día, Inflection se presentó como un orgulloso laboratorio de inteligencia artificial independiente. Luego demostraron que es una especie en extinción.
Esta afirmación adquiere mayor peso si se tienen en cuenta las asociaciones existentes de Microsoft en el campo de la IA. La empresa ya ha invertido un total de unos $13.000 millones en OpenAI, lo que plantea dudas sobre la concentración del mercado.
Para engrosar la trama, Microsoft se retiró recientemente de su escaño sin derecho a voto en OpenAI. Según los expertos, esto se debe probablemente a la decisión de frenar la supervisión de la empresa para apaciguar a las autoridades antimonopolio.
Alex Haffner, socio de competencia del bufete Fladgate, sobre la sorprendente decisión de MicrosoftEs difícil no llegar a la conclusión de que la decisión de Microsoft se ha visto muy influida por el actual escrutinio antimonopolio y de competencia de su influencia (y la de otros grandes actores tecnológicos) sobre actores emergentes de la IA como OpenAI".
¿Un déficit de confianza?
Tanto el escándalo de la extracción de datos de YouTube como las prácticas de contratación de Microsoft contribuyen a un creciente déficit de confianza entre las grandes tecnológicas y el público.
Una repercusión inmediata es que los creadores de contenidos se han vuelto más cautelosos sobre su trabajo por miedo a la explotación.
Esto podría repercutir en la creación e intercambio de contenidos y, en última instancia, empobrecer las propias plataformas de las que dependen las empresas tecnológicas para obtener datos.
Del mismo modo, la concentración del talento en IA en unas pocas grandes empresas está homogeneizando el desarrollo de la IA y limitando la diversidad.
Para las empresas tecnológicas, la recuperación de la confianza requerirá probablemente algo más que el cumplimiento de futuras normativas e investigaciones antimonopolio.
Los interrogantes persisten: ¿podemos aprovechar el verdadero potencial de la IA preservando al mismo tiempo la ética, la competencia leal y la confianza pública?