Компания OpenAI представила GPTBot, специальный веб-скребок для сбора данных об обучении.
Редактировать: В настоящее время неясно, является ли GPTBot тем же самым/обновленным ботом, который OpenAI использовал для соскабливания данных вместе с Common Crawl в 2018/2019 годах, или это новая/развитая версия. В любом случае, это первый раз, когда они опубликовали данные о том, как предотвратить соскабливание данных сайта.
OpenAI опубликовала информацию о GPTBot на своем сайте сайт здесьвключая подробную информацию о том, как администраторы веб-сайтов могут предотвратить его ползание и соскабливание сайтов.
Чтобы запретить GPTBot ползать по сайту, администраторы могут изменить настройки в файле robots.txt. В этом файле, стандартном инструменте управления веб-сайтами, который существует уже около 30 лет, указывается, какие области веб-сайта запрещены для краулеров.
Если вкратце разделить понятия "краулинг" и "скрапинг", то краулеры просматривают содержимое сайта, а скраперы извлекают данные. Это процесс, состоящий из двух частей, хотя обычно эти две части называют просто "соскабливанием".
OpenAI также раскрыл блок IP-адресов, используемых GPTBot, доступен здесь, предоставляя еще одну возможность подавить активность бота.
Некоторые предполагают, что это дает OpenAI еще один уровень защиты от обвинений в несанкционированном использовании данных.
OpenAI и другие разработчики искусственного интеллекта заваленный судебными исками о том, как они использовали данные людей без их разрешения.
Теперь администраторы сайтов должны активно предотвращать соскабливание своих сайтов для получения обучающих данных, возлагая на себя ответственность за то, чтобы данные их сайтов не попадали в обучающие наборы данных.
Стоит отметить, что GPTBot - не единственный инструмент такого рода. OpenAI использовала другие наборы данных для обучения своих моделей, включая набор данных Common Crawl.
Как и GPTBot, краулером CCBot можно управлять, добавляя определенные строки кода в файл robots.txt.
Как запретить ChatGPT просматривать данные вашего сайта
OpenAI будет использовать GPTBot для целенаправленного сбора данных, но ему можно запретить собирать данные с целых сайтов или конкретных веб-страниц. Прочитайте статью OpenAI полная документация здесь.
Компания OpenAI опубликовала следующую информацию:
GPTBot идентифицируется по маркеру пользовательского агента "GPTBot". Полная строка user-agent, связанная с ним, выглядит следующим образом: "Mozilla/5.0 AppleWebKit/537.36 (KHTML, как Gecko; совместимый; GPTBot/1.0; +https://openai.com/gptbot)".
Отредактировав файл robots.txt, можно заблокировать доступ GPTBot ко всему сайту или к его отдельным частям.
Чтобы запретить GPTBot доступ к сайту, администраторы могут отредактировать файл robots.txt своего сайта следующим образом:
Пользовательский агент: GPTBot
Запретить: /
Части веб-сайтов могут быть разрешены или запрещены следующим образом:
Пользовательский агент: GPTBot
Разрешить: /directory-1/
Запретить: /directory-2/
OpenAI также обнародовала диапазоны IP-адресов, используемых GPTBot доступен здесь. Хотя в списке представлен только один ассортимент, со временем он может быть дополнен.