Все больше ведущих сайтов блокируют GPTBot

1 сентября 2023 года

OpenAI раскрыл свой GPTBot в начале этого месяца, и с тех пор крупнейшие сайты интернета все чаще стали блокировать доступ этого веб-скрепера к своим сайтам.

Детектор контента с искусственным интеллектом, Оригинальность.ai, отслеживает 1000 крупнейших веб-сайтов, чтобы узнать, какие из них заблокировали веб-скреперы, подобные GPTBot.

Блокировать GPTBot от соскабливания веб-сайта легко, добавив две строки в файл robots.txt сайта. И все больше и больше сайтов начинают делать именно это. 

Цифры, отраженные в отчете Originality.ai, показывают, что неделю назад 91 сайт заблокировал GPTBot. Чуть больше недели спустя эта цифра подскочила до 111, что на 22% больше.

Увеличение на 20 сайтов не кажется большим, но если учесть объем данных, которые эти сайты продолжают производить, то это значительно. В топ-5 сайтов, которые теперь блокируют GPTBot, входят:

amazon.com
quora.com
действительно.com
nytimes.com
shutterstock.com

Объем данных, которые OpenAI не может использовать для обучения своих моделей только с этих пяти сайтов, весьма значителен.

Если вы посмотрите на полный список из 1000 сайтов Интересно отметить, кто из них заблокировал GPTBot, а кто пока решил этого не делать.

В то время как Shutterstock заблокировал GPTBot, другие сайты стоковой фотографии, такие как iStock, этого не сделали. Когда речь заходит о стоковой фотографии, поневоле задумываешься о том, не свалила ли эта лошадь, занимающаяся искусственным интеллектом, уже некоторое время назад.

Вполне логично, что такие новостные компании, как The New York Times и CNN, заблокировали бота. Но другие ведущие новостные сайты, такие как Forbes и The Guardian, пока решили не блокировать бота.

OpenAI заявила, что разрешение GPTBot соскабливать сайты "может помочь моделям ИИ стать более точными и улучшить их общие возможности и безопасность". Компания также заявила, что ее бот не заглядывает за платные стены и не просматривает сайты, собирающие личную информацию.

Возможно, такие сайты, как YouTube, X и BBC, поверят OpenAI на слово и увидят потенциальную ценность в том, чтобы позволить ИИ-ботам использовать их данные ответственным образом. Если они решат использовать ChatGPT в своем бизнесе, то захотят, чтобы он работал как можно лучше.

Возможно, эти компании также осознают, какой потенциальный трафик они могут упустить, если заблокируют крупнейшего ИИ-скрепера. Представьте, что произойдет с их трафиком, если сайты решат заблокировать бота Google из принципа. 

Интересно также отметить, что ни один из сайтов в этом списке не заблокировал бота Anthropic. Считает ли индустрия в целом, что OpenAI будет обращаться со своими данными иначе, чем Anthropic? 

Можно подумать, что если компания приняла решение о блокировке ИИ-скреперов, то она будет блокировать их все, а не только один.

OpenAI участвует в некоторых Знаковые иски об авторских правах на ИИ что потенциально может сильно изменить этот список. Будет интересно посмотреть, какие крупные сайты решат заблокировать бота, и даже если мы увидим, что некоторые изменят свое решение.

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Юджин ван дер Ватт

Юджин - выходец из электронной инженерии и обожает все, что связано с техникой. Когда он отдыхает от чтения новостей об искусственном интеллекте, вы можете найти его за столом для игры в снукер.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения