Más sitios web bloquean GPTBot

1 de septiembre de 2023

OpenAI dio a conocer su GPTBot a principios de este mes y, desde entonces, los sitios más importantes de Internet han ido tomando medidas para bloquear el acceso de este raspador a sus páginas.

Detector de contenidos AI, Originalidad.aiha estado vigilando los 1.000 sitios web más importantes para ver cuáles de ellos han bloqueado raspadores web como GPTBot.

Para impedir que GPTBot rastree un sitio web, basta con añadir dos líneas al archivo robots.txt del sitio web. Y cada vez son más los sitios que empiezan a hacerlo. 

Las cifras reflejadas en el informe de Originality.ai muestran que hace una semana 91 sitios bloquearon GPTBot. Poco más de una semana después esa cifra ha saltado a 111, lo que supone un aumento de 22%

Un aumento de 20 sitios no parece mucho, pero si tenemos en cuenta la cantidad de datos que estos sitios web tienen y siguen produciendo, entonces es significativo. Los 5 sitios principales que ahora bloquean GPTBot son:

amazon.es
quora.com
de hecho.com
nytimes.com
shutterstock.com

La cantidad de datos que OpenAI ha dejado de utilizar para entrenar sus modelos a partir de esos cinco sitios web es considerable.

Si mira la lista completa de 1.000 sitios es interesante observar cuáles han bloqueado GPTBot y cuáles han decidido no hacerlo, por ahora.

Aunque Shutterstock ha bloqueado GPTBot, otros sitios de fotografía de stock como iStock no lo han hecho. En lo que respecta a la fotografía de stock, cabe preguntarse si ese caballo rastrero de la IA no se escapó hace tiempo.

Tiene más sentido que empresas de noticias como The New York Times y CNN hayan bloqueado el bot. Pero otros sitios de noticias importantes como Forbes y The Guardian han optado hasta ahora por no bloquear el raspador.

OpenAI ha dicho que permitir a GPTBot raspar sitios "puede ayudar a los modelos de IA a ser más precisos y mejorar sus capacidades generales y su seguridad". La empresa también ha dicho que su bot no se asoma detrás de los paywalls ni busca en sitios que recopilan información personal.

Puede que sitios como YouTube, X y BBC tomen la palabra a OpenAI y vean el valor potencial de permitir que los bots de IA utilicen sus datos de forma responsable. Si decidieran utilizar ChatGPT en su negocio, querrían que funcionara lo mejor posible.

Estas empresas también pueden darse cuenta del tráfico potencial que podrían perder si bloquean al mayor raspador de IA. Imagina lo que ocurriría con su tráfico si los sitios web decidieran bloquear el bot de Google por principios. 

También es interesante observar que ninguno de los sitios de la lista ha bloqueado el bot de Anthropic. Piensa el sector en general que OpenAI tratará sus datos de forma diferente a como lo hará Anthropic? 

Uno pensaría que si una empresa toma la decisión de bloquear los raspadores de IA los bloquearía a todos, y no sólo a uno.

OpenAI participa en algunos demandas históricas por derechos de autor de IA que podría marcar una gran diferencia en esta lista. Será interesante ver qué sitios grandes deciden bloquear el bot e incluso si vemos que algunos cambian su decisión de hacerlo.

Únete al futuro


SUSCRÍBETE HOY

Claro, conciso y completo. Conozca los avances de la IA con DailyAI

Eugene van der Watt

Eugene es ingeniero electrónico y le encanta todo lo relacionado con la tecnología. Cuando descansa de consumir noticias sobre IA, lo encontrará jugando al billar.

×

PDF GRATUITO EXCLUSIVO
Adelántese con DailyAI

Suscríbase a nuestro boletín semanal y reciba acceso exclusivo al último eBook de DailyAI: 'Mastering AI Tools: Su guía 2024 para mejorar la productividad'.

*Al suscribirse a nuestro boletín de noticias, acepta nuestra política de privacidad. Política de privacidad y nuestro Condiciones generales