OpenAI avduket diskret GPTBot, en dedikert nettskraper for innsamling av treningsdata.
Rediger: Det er foreløpig uklart om GPTBot er den samme/oppdaterte boten som OpenAI brukte til å skrape data sammen med Common Crawl i 2018/2019, eller om dette er en ny/videreutviklet versjon. Uansett er dette første gang de har publisert data om hvordan du kan forhindre at den skraper nettsteddata.
OpenAI har publisert informasjon om GPTBot på sin nettside her, inkludert informasjon om hvordan nettstedsadministratorer kan forhindre at den gjennomsøker og skraper nettstedene deres.
For å hindre GPTBot i å gjennomsøke et nettsted kan administratorer justere innstillingene i robots.txt-filen. Denne filen, som har vært et standardverktøy for nettstedsadministrasjon i rundt 30 år, angir hvilke områder av nettstedet som er forbudt for crawlere.
For å skille mellom crawling og skraping, kan vi si at crawlere tråler gjennom innholdet på nettstedet, mens skrapere trekker ut dataene. Det er en todelt prosess, selv om de to vanligvis bare kalles "skraping" under ett.
OpenAI avslørte også IP-adresseblokken som ble brukt av GPTBot, tilgjengelig herog gir et annet alternativ for å hemme botens aktivitet.
Noen spekulerer i om dette gir OpenAI enda et lag med beskyttelse mot påstander om uautorisert databruk.
OpenAI og andre AI-utviklere blir overveldet av søksmål knyttet til hvordan de brukte folks data uten deres tillatelse.
Nå må nettstedsadministratorer proaktivt forhindre at nettstedene deres blir skrapet for treningsdata, noe som betyr at det er opp til dem selv å forhindre at nettstedets data havner i treningsdatasettene.
Det er verdt å merke seg at GPTBot ikke er det eneste verktøyet i sitt slag. OpenAI har brukt andre datasett til å trene modellene sine, blant annet Common Crawl-datasettet.
I likhet med GPTBot kan også CCBot-crawleren styres ved å legge til spesifikke kodelinjer i robots.txt-filen.
Slik forhindrer du ChatGPT fra å gjennomsøke nettstedets data
OpenAI vil bruke GPTBot til målrettet dataskraping, men den kan stoppes fra å skrape hele nettsteder eller spesifikke nettsider. Les OpenAIs full dokumentasjon her.
OpenAI har publisert følgende informasjon:
GPTBot identifiseres av brukeragent-tokenet "GPTBot". Den fullstendige brukeragentstrengen som er knyttet til den, er "Mozilla/5.0 AppleWebKit/537.36 (KHTML, som Gecko; kompatibel; GPTBot/1.0; +https://openai.com/gptbot)".
Ved å redigere robots.txt-filen kan GPTBot blokkeres fra å få tilgang til et helt nettsted eller utvalgte deler av det.
For å hindre GPTBot i å få tilgang til et nettsted, kan administratorer redigere nettstedets robots.txt-fil på følgende måte:
Bruker-agent: GPTBot
Ikke tillat: /
Deler av nettsteder kan tillates/avvises ved hjelp av følgende:
Bruker-agent: GPTBot
Tillat: /directory-1/
Ikke tillat: /directory-2/
OpenAI har også offentliggjort IP-områdene som brukes av GPTBot tilgjengelig her. Selv om bare én serie er oppført, kan flere komme til etter hvert.