OpenAI a discrètement dévoilé GPTBot, un scraper web dédié à la collecte de données d'entraînement.
Editer: Il n'est actuellement pas clair si GPTBot est le même bot / mis à jour que OpenAI a utilisé pour gratter des données parallèlement à Common Crawl en 2018/2019 ou s'il s'agit d'une version nouvelle / évoluée. Quoi qu'il en soit, c'est la première fois qu'ils publient des données sur la façon de l'empêcher de gratter des données de sites Web.
OpenAI a publié des informations sur GPTBot sur son site Web. site web iciLa Commission européenne a publié un rapport sur l'utilisation de l'Internet dans les sites web, y compris des détails sur la façon dont les administrateurs de sites web peuvent l'empêcher d'explorer et de gratter leurs sites web.
Pour empêcher GPTBot d'explorer un site web, les administrateurs peuvent modifier les paramètres du fichier robots.txt. Ce fichier, qui est un outil standard de gestion des sites web datant d'une trentaine d'années, indique les zones du site web interdites aux robots d'exploration.
Pour distinguer brièvement le crawling du scraping, les crawlers parcourent le contenu des sites web tandis que les scrapers en extraient les données. Il s'agit d'un processus en deux parties, bien que les deux soient généralement appelés collectivement "scraping".
OpenAI a également révélé le bloc d'adresses IP utilisé par GPTBot, disponible icice qui offre une autre possibilité d'inhiber l'activité du bot.
D'aucuns se demandent si cela n'offre pas à l'OpenAI une couche supplémentaire de protection contre les allégations d'utilisation non autorisée des données.
OpenAI et d'autres développeurs d'IA sont les poursuites judiciaires les plus importantes concernant la manière dont ils ont utilisé les données des personnes sans leur autorisation.
Désormais, les administrateurs de sites web doivent empêcher de manière proactive que leurs sites soient scrappés pour obtenir des données d'entraînement, et il leur incombe donc d'éviter que les données de leur site ne se retrouvent dans les ensembles de données d'entraînement.
Il convient de noter que GPTBot n'est pas le seul outil de ce type. OpenAI a utilisé d'autres ensembles de données pour entraîner ses modèles, notamment l'ensemble de données Common Crawl.
Comme GPTBot, le crawler CCBot peut également être contrôlé en ajoutant des lignes de code spécifiques dans le fichier robots.txt.
Comment empêcher ChatGPT d'explorer les données de votre site ?
OpenAI utilisera GPTBot pour le scraping ciblé de données, mais il est possible de l'empêcher de scanner des sites web entiers ou des pages web spécifiques. Lire le communiqué de presse d'OpenAI Documentation complète ici.
OpenAI a publié les informations suivantes :
GPTBot est identifié par son user agent token "GPTBot". La chaîne complète de l'agent utilisateur qui lui est associée est la suivante : "Mozilla/5.0 AppleWebKit/537.36 (KHTML, comme Gecko ; compatible ; GPTBot/1.0 ; +https://openai.com/gptbot)".
En modifiant le fichier robots.txt, il est possible d'empêcher GPTBot d'accéder à l'ensemble d'un site web ou à des parties sélectionnées.
Pour empêcher GPTBot d'accéder à un site, les administrateurs peuvent modifier le fichier robots.txt de leur site web comme suit :
User-agent : GPTBot
Ne pas autoriser : /
Des parties de sites web peuvent être autorisées/interdites par les moyens suivants :
User-agent : GPTBot
Autoriser : /directory-1/
Disallow : /directory-2/
OpenAI a également rendu publiques les plages d'adresses IP utilisées par GPTBot disponible ici. Bien qu'une seule gamme ait été répertoriée, d'autres pourront être ajoutées en temps voulu.