Según un estudio del Instituto Reuters para el Estudio del Periodismo de la Universidad de Oxford, cada vez más sitios web de noticias de todo el mundo bloquean los rastreadores web de inteligencia artificial.
En estudiar, del que es autor el Dr. Richard Fletcher, Director de Investigación del Instituto Reuters para el Estudio del Periodismo, descubrió que casi la mitad (48%) de los sitios de noticias más populares de todo el mundo son ahora inaccesibles para los rastreadores de OpenAI, y que los rastreadores de IA de Google tienen bloqueados 24% de sitios.
Nuevo @risj_oxford en la que me pregunto ¿Cuántos sitios web de noticias impiden que las IA generativas como ChatGPT y Gemini utilicen sus contenidos para entrenar sus modelos?
Depende del país. Hay grandes diferencias en el número de sitios de noticias que bloquean y en la rapidez con que lo hacen. pic.twitter.com/CaebVc4gfZ
- Richard Fletcher (@richrdfletcher) 22 de febrero de 2024
Los rastreadores de IA están diseñados para rastrear Internet y recopilar datos para modelos de IA como ChatGPT y Gemini. Esto garantiza un suministro constante de información actualizada, fundamental para que las respuestas de IA sean precisas y pertinentes.
Sin datos frescos, los modelos de IA se quedarán bloqueados en el tiempo y serán incapaces de adaptarse a los avances del mundo real. Si mos modelos consumen demasiados datos de mala calidad, sintéticos y generados por IA, en lugar de datos nuevos, de alta calidad y producidos por humanos. podría incluso enfrentarse al colapso del modelo.
¿Por qué los sitios de noticias bloquean los rastreadores web de IA? Les preocupan sobre todo los derechos de autor y la justa compensación, el temor a difundir información errónea y la posible pérdida de tráfico directo a los sitios de noticias.
En El New York Times demanda a OpenAI y Microsoft por infracción de los derechos de autor, uniéndose así a una multitud de autores, artistas y empresas que alegan que los desarrolladores de IA utilizaron sus datos de forma ilícita.
Las empresas de IA entienden el problema. Por eso están firmando acuerdos de licencia con empresas de medios de comunicación como El acuerdo de OpenAI con Axel Springer el año pasado.
El gigante de los contenidos Reddit es lo último para tentar a las empresas de IA con acuerdos multimillonarios de licencia de contenidos.
Información clave
He aquí algunos datos clave del informe:
- A finales de 2023, 48% de las principales plataformas de noticias a nivel internacional habían restringido el acceso a los rastreadores de OpenAI, con un menor 24% haciendo lo mismo con el rastreador AI de Google.
- En particular, 97% de los sitios que bloquean la IA de Google también bloquean los rastreadores de OpenAI.
- La probabilidad de que los sitios web bloqueen los rastreadores de IA varía significativamente según el país, observándose las tasas más elevadas en EE.UU. (79%) y las más bajas en México y Polonia (20%).
- A lo largo de 2023, no se registraron casos de sitios web que revocaran su decisión de bloquear los rastreadores de IA.
- Los grandes medios de comunicación mostraron una propensión ligeramente mayor a bloquear los rastreadores de IA que los pequeños.
- La tendencia a bloquear varía entre los distintos tipos de organizaciones periodísticas. Los medios impresos tradicionales (57%) son los que más bloquean, frente a los digitales (31%).
Es evidente que las empresas de noticias están fortificando sus defensas contra los rastreadores web de IA, y las empresas de IA probablemente tendrán que negociar su salida para mantener sus modelos actualizados de forma convincente.
La alternativa es funesta. El rendimiento de los modelos de IA mejorará, pero el conocimiento se irá quedando lentamente obsoleto hasta alcanzar índices de alucinación insatisfactorios, inexactitud, redundancia e irrelevancia.