The Guardian se une a otros sitios web de noticias para bloquear GPTBot

4 de septiembre de 2023

The Guardian se ha unido a una lista cada vez mayor de sitios web que han bloqueado al GPTBot de OpenAI para que no rastree sus sitios web.

El diario británico anunció su decisión en su sitio web el pasado viernes y se une a la CNN, Reuters, el Washington Post, Bloomberg y el New York Times en bloqueo de GPTBot. Aunque no explicaba en detalle los motivos de la decisión, sí mencionaba algunas preocupaciones comunes del sector.

Citó la actual demandas por derechos de autor de autores como Sarah Silverman y los llamamientos de los editores de libros británicos para que protejan su trabajo de la explotación de la IA.

The Guardian reconoce que las herramientas de IA generativa como ChatGPT están haciendo cosas impresionantes, pero algunos de los aspectos semánticos del anuncio revelan una visión menos entusiasta de cómo las empresas de IA están llevando a cabo su actividad.

El anuncio señalaba que ChatGPT se formó a partir de grandes cantidades de datos "extraídos" de Internet y que actuó para impedir que la empresa utilizara software que "cosechara" sus datos.

No ha gritado directamente "¡Al ladrón!", pero el mensaje es bastante claro. 

Un portavoz de la empresa editora de The Guardian y The Observer declaró: "El scraping de propiedad intelectual del sitio web de The Guardian con fines comerciales es, y siempre ha sido, contrario a nuestras condiciones de servicio".

En una señal de que puede estar abierto a permitir el raspado de datos en el futuro, el portavoz dijo: "El equipo de licencias comerciales de The Guardian tiene muchas relaciones comerciales mutuamente beneficiosas con desarrolladores de todo el mundo, y espera construir más relaciones de este tipo en el futuro."

Curiosamente, The Guardian también señaló su preocupación por el potencial de la IA generativa para producir desinformación. No explicó cómo esta preocupación se relacionaba con su decisión de bloquear GPTBot, pero como editor de noticias, esta es un área obvia de preocupación.

Cuestiones éticas y de derechos de autor aparte, también puede ser que los servidores del sitio web de The Guardian hayan estado experimentando problemas similares a los que tuvo X. 

A principios de este año, Elon Musk dijo que una parte importante de la carga que experimentaban los servidores X procedía de una multitud de bots AI scraper. No los ha bloqueado directamente y también pretende utilizar los tuits públicos para entrenar su modelo xAI.

Cuando un robot de inteligencia artificial visita un sitio web y se encuentra con un archivo robot.txt que lo "bloquea", no rastrea el sitio web por cortesía, no porque no pueda hacerlo. 

Una vez que se resuelvan jurídicamente las cuestiones de derechos de autor, me pregunto cuánto tiempo seguirá triunfando la cortesía sobre el insaciable apetito de datos de la IA.

Únete al futuro


SUSCRÍBETE HOY

Claro, conciso y completo. Conozca los avances de la IA con DailyAI

Eugene van der Watt

Eugene es ingeniero electrónico y le encanta todo lo relacionado con la tecnología. Cuando descansa de consumir noticias sobre IA, lo encontrará jugando al billar.

×

PDF GRATUITO EXCLUSIVO
Adelántese con DailyAI

Suscríbase a nuestro boletín semanal y reciba acceso exclusivo al último eBook de DailyAI: 'Mastering AI Tools: Su guía 2024 para mejorar la productividad'.

*Al suscribirse a nuestro boletín de noticias, acepta nuestra política de privacidad. Política de privacidad y nuestro Condiciones generales