OpenAI onthulde onopvallend GPTBot, een speciale webscraper voor het verzamelen van trainingsgegevens.
Bewerk: Het is op dit moment onduidelijk of GPTBot dezelfde/bijgewerkte bot is als OpenAI gebruikte om gegevens te scrapen naast Common Crawl in 2018/2019 of dat dit een nieuwe/geëvolueerde versie is. Hoe dan ook, dit is de eerste keer dat ze gegevens publiceren over hoe je kunt voorkomen dat ze websitegegevens schrapen.
OpenAI heeft informatie over GPTBot gepubliceerd op zijn hiermet details over hoe websitebeheerders kunnen voorkomen dat hun websites worden gecrawld en geschraapt.
Om te voorkomen dat GPTBot een website crawlt, kunnen beheerders de instellingen in het robots.txt-bestand aanpassen. Dit bestand, een standaard hulpmiddel voor websitebeheer dat al zo'n 30 jaar bestaat, geeft aan welke delen van de website verboden zijn voor crawlers.
Om een kort onderscheid te maken tussen crawling en scraping: crawlers doorzoeken de inhoud van websites terwijl scrapers de gegevens extraheren. Het is een proces in twee delen, hoewel de twee samen meestal gewoon "schrapen" worden genoemd.
OpenAI onthulde ook het IP-adresblok dat door GPTBot werd gebruikt, hier verkrijgbaarDit biedt nog een optie om de activiteit van de bot te remmen.
Sommigen speculeren of dit OpenAI een extra beschermingslaag biedt tegen beschuldigingen van ongeoorloofd gegevensgebruik.
OpenAI en andere AI-ontwikkelaars worden ondergesneeuwd door rechtszaken over hoe ze de gegevens van mensen gebruikten zonder hun toestemming.
Nu moeten websitebeheerders proactief voorkomen dat hun sites worden afgeschraapt voor trainingsgegevens, waardoor het aan hen is om te voorkomen dat de gegevens van hun site in trainingsdatasets terechtkomen.
Het is de moeite waard om op te merken dat GPTBot niet de enige tool in zijn soort is. OpenAI heeft andere datasets gebruikt om zijn modellen te trainen, waaronder de Common Crawl dataset.
Net als GPTBot kan de CCBot crawler ook worden bestuurd door specifieke regels code toe te voegen in het robots.txt-bestand.
Hoe voorkom je dat ChatGPT de gegevens van je site crawlt?
OpenAI zal GPTBot gebruiken voor het gericht schrapen van gegevens, maar het kan worden tegengehouden om hele websites of specifieke webpagina's te schrapen. Lees OpenAI's volledige documentatie hier.
OpenAI publiceerde de volgende informatie:
GPTBot wordt geïdentificeerd door zijn user-agent token "GPTBot". De volledige user-agent string die erbij hoort is: "Mozilla/5.0 AppleWebKit/537.36 (KHTML, zoals Gecko; compatibel; GPTBot/1.0; +https://openai.com/gptbot)".
Door het robots.txt-bestand aan te passen, kan GPTBot de toegang tot een hele website of geselecteerde delen ervan worden geblokkeerd.
Om GPTBot de toegang tot een site te ontzeggen, kunnen beheerders het robots.txt-bestand van hun website als volgt bewerken:
Gebruiker-agent: GPTBot
Niet toestaan: /
Delen van websites kunnen worden toegestaan/uitgesloten door het volgende:
Gebruiker-agent: GPTBot
Toestaan: /directory-1/
Disallow: /directory-2/
OpenAI heeft ook de IP-reeksen openbaar gemaakt die door GPTBot worden gebruikt hier verkrijgbaar. Hoewel er slechts één assortiment is opgenomen, kunnen er te zijner tijd meer worden toegevoegd.