OpenAI незаметно представила свой собственный скребок данных, GPTBot

7 августа 2023 года

OpenAI GPTBot

Компания OpenAI представила GPTBot, специальный веб-скребок для сбора данных об обучении.

Редактировать: В настоящее время неясно, является ли GPTBot тем же самым/обновленным ботом, который OpenAI использовал для соскабливания данных вместе с Common Crawl в 2018/2019 годах, или это новая/развитая версия. В любом случае, это первый раз, когда они опубликовали данные о том, как предотвратить соскабливание данных сайта.

OpenAI опубликовала информацию о GPTBot на своем сайте сайт здесьвключая подробную информацию о том, как администраторы веб-сайтов могут предотвратить его ползание и соскабливание сайтов. 

Чтобы запретить GPTBot ползать по сайту, администраторы могут изменить настройки в файле robots.txt. В этом файле, стандартном инструменте управления веб-сайтами, который существует уже около 30 лет, указывается, какие области веб-сайта запрещены для краулеров. 

Если вкратце разделить понятия "краулинг" и "скрапинг", то краулеры просматривают содержимое сайта, а скраперы извлекают данные. Это процесс, состоящий из двух частей, хотя обычно эти две части называют просто "соскабливанием".

OpenAI также раскрыл блок IP-адресов, используемых GPTBot, доступен здесь, предоставляя еще одну возможность подавить активность бота. 

Некоторые предполагают, что это дает OpenAI еще один уровень защиты от обвинений в несанкционированном использовании данных.

OpenAI и другие разработчики искусственного интеллекта заваленный судебными исками о том, как они использовали данные людей без их разрешения. 

Теперь администраторы сайтов должны активно предотвращать соскабливание своих сайтов для получения обучающих данных, возлагая на себя ответственность за то, чтобы данные их сайтов не попадали в обучающие наборы данных. 

Стоит отметить, что GPTBot - не единственный инструмент такого рода. OpenAI использовала другие наборы данных для обучения своих моделей, включая набор данных Common Crawl. 

Как и GPTBot, краулером CCBot можно управлять, добавляя определенные строки кода в файл robots.txt.

Как запретить ChatGPT просматривать данные вашего сайта

OpenAI будет использовать GPTBot для целенаправленного сбора данных, но ему можно запретить собирать данные с целых сайтов или конкретных веб-страниц. Прочитайте статью OpenAI полная документация здесь.

Компания OpenAI опубликовала следующую информацию:

GPTBot идентифицируется по маркеру пользовательского агента "GPTBot". Полная строка user-agent, связанная с ним, выглядит следующим образом: "Mozilla/5.0 AppleWebKit/537.36 (KHTML, как Gecko; совместимый; GPTBot/1.0; +https://openai.com/gptbot)".

Отредактировав файл robots.txt, можно заблокировать доступ GPTBot ко всему сайту или к его отдельным частям. 

Чтобы запретить GPTBot доступ к сайту, администраторы могут отредактировать файл robots.txt своего сайта следующим образом:

Пользовательский агент: GPTBot

Запретить: /

Части веб-сайтов могут быть разрешены или запрещены следующим образом:

Пользовательский агент: GPTBot

Разрешить: /directory-1/

Запретить: /directory-2/

OpenAI также обнародовала диапазоны IP-адресов, используемых GPTBot доступен здесь. Хотя в списке представлен только один ассортимент, со временем он может быть дополнен.

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Сэм Джинс

Сэм - писатель в области науки и техники, работавший в различных AI-стартапах. Когда он не пишет, его можно найти за чтением медицинских журналов или копанием в коробках с виниловыми пластинками.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения