OpenAI dévoile discrètement son propre scraper de données, GPTBot

OpenAI a discrètement dévoilé GPTBot, un scraper web dédié à la collecte de données d'entraînement.

Editer: Il n'est actuellement pas clair si GPTBot est le même bot / mis à jour que OpenAI a utilisé pour gratter des données parallèlement à Common Crawl en 2018/2019 ou s'il s'agit d'une version nouvelle / évoluée. Quoi qu'il en soit, c'est la première fois qu'ils publient des données sur la façon de l'empêcher de gratter des données de sites Web.

OpenAI a publié des informations sur GPTBot sur son site Web. site web iciLa Commission européenne a publié un rapport sur l'utilisation de l'Internet dans les sites web, y compris des détails sur la façon dont les administrateurs de sites web peuvent l'empêcher d'explorer et de gratter leurs sites web.

Pour empêcher GPTBot d'explorer un site web, les administrateurs peuvent modifier les paramètres du fichier robots.txt. Ce fichier, qui est un outil standard de gestion des sites web datant d'une trentaine d'années, indique les zones du site web interdites aux robots d'exploration.

Pour distinguer brièvement le crawling du scraping, les crawlers parcourent le contenu des sites web tandis que les scrapers en extraient les données. Il s'agit d'un processus en deux parties, bien que les deux soient généralement appelés collectivement "scraping".

OpenAI a également révélé le bloc d'adresses IP utilisé par GPTBot, disponible icice qui offre une autre possibilité d'inhiber l'activité du bot.

D'aucuns se demandent si cela n'offre pas à l'OpenAI une couche supplémentaire de protection contre les allégations d'utilisation non autorisée des données.

OpenAI et d'autres développeurs d'IA sont les poursuites judiciaires les plus importantes concernant la manière dont ils ont utilisé les données des personnes sans leur autorisation.

Désormais, les administrateurs de sites web doivent empêcher de manière proactive que leurs sites soient scrappés pour obtenir des données d'entraînement, et il leur incombe donc d'éviter que les données de leur site ne se retrouvent dans les ensembles de données d'entraînement.

Il convient de noter que GPTBot n'est pas le seul outil de ce type. OpenAI a utilisé d'autres ensembles de données pour entraîner ses modèles, notamment l'ensemble de données Common Crawl.

Comme GPTBot, le crawler CCBot peut également être contrôlé en ajoutant des lignes de code spécifiques dans le fichier robots.txt.

Comment empêcher ChatGPT d'explorer les données de votre site ?

OpenAI utilisera GPTBot pour le scraping ciblé de données, mais il est possible de l'empêcher de scanner des sites web entiers ou des pages web spécifiques. Lire le communiqué de presse d'OpenAI Documentation complète ici.

OpenAI a publié les informations suivantes :

GPTBot est identifié par son user agent token "GPTBot". La chaîne complète de l'agent utilisateur qui lui est associée est la suivante : "Mozilla/5.0 AppleWebKit/537.36 (KHTML, comme Gecko ; compatible ; GPTBot/1.0 ; +https://openai.com/gptbot)".

En modifiant le fichier robots.txt, il est possible d'empêcher GPTBot d'accéder à l'ensemble d'un site web ou à des parties sélectionnées.

Pour empêcher GPTBot d'accéder à un site, les administrateurs peuvent modifier le fichier robots.txt de leur site web comme suit :

User-agent : GPTBot

Ne pas autoriser : /

Des parties de sites web peuvent être autorisées/interdites par les moyens suivants :

User-agent : GPTBot

Autoriser : /directory-1/

Disallow : /directory-2/

OpenAI a également rendu publiques les plages d'adresses IP utilisées par GPTBot disponible ici. Bien qu'une seule gamme ait été répertoriée, d'autres pourront être ajoutées en temps voulu.

OpenAI dévoile discrètement son propre scraper de données, GPTBot

Comment empêcher ChatGPT d'explorer les données de votre site ?

Rejoindre l'avenir

Sam Jeans

ARTICLES ASSOCIÉS

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

OpenAI dévoile discrètement son propre scraper de données, GPTBot

Comment empêcher ChatGPT d'explorer les données de votre site ?

Rejoindre l'avenir

Sam Jeans

ARTICLES ASSOCIÉS

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

PDF GRATUIT EXCLUSIFGardez une longueur d'avance avec DailyAI

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI