OpenAI afslørede diskret GPTBot, en dedikeret webscraper til indsamling af træningsdata.
Rediger: Det er i øjeblikket uklart, om GPTBot er den samme/opdaterede bot, som OpenAI brugte til at skrabe data sammen med Common Crawl i 2018/2019, eller om dette er en ny/udviklet version. Uanset hvad er det første gang, de har offentliggjort data om, hvordan man forhindrer den i at skrabe webstedsdata.
OpenAI har offentliggjort oplysninger om GPTBot på sin hjemmeside herog hvordan webstedsadministratorer kan forhindre den i at crawle og scrape deres websteder.
For at forhindre GPTBot i at crawle et website kan administratorer justere indstillingerne i robots.txt-filen. Denne fil, som er et standardværktøj til administration af hjemmesider, der går ca. 30 år tilbage, angiver, hvilke områder af hjemmesiden der ikke er tilgængelige for crawlere.
For kort at afgrænse crawling fra scraping, så trawler crawlere gennem websitets indhold, mens scrapere udtrækker data. Det er en todelt proces, selv om de to typisk blot kaldes "skrabning".
OpenAI afslørede også den IP-adresseblok, der blev brugt af GPTBot, tilgængelig herhvilket giver en anden mulighed for at hæmme bottens aktivitet.
Nogle spekulerer på, om dette giver OpenAI endnu et lag af beskyttelse mod beskyldninger om uautoriseret brug af data.
OpenAI og andre AI-udviklere bliver Overvældet af retssager om, hvordan de brugte folks data uden deres tilladelse.
Nu skal webstedsadministratorer proaktivt forhindre, at deres websteder bliver scrapet til træningsdata, hvilket giver dem ansvaret for at forhindre, at deres websteds data ender i træningsdatasæt.
Det er værd at bemærke, at GPTBot ikke er det eneste værktøj af sin slags. OpenAI har brugt andre datasæt til at træne sine modeller, herunder Common Crawl-datasættet.
Ligesom GPTBot kan CCBot-crawleren også styres ved at tilføje specifikke kodelinjer i robots.txt-filen.
Sådan forhindrer du ChatGPT i at gennemsøge din hjemmesides data
OpenAI vil bruge GPTBot til målrettet dataskrabning, men den kan stoppes fra at skrabe hele websites eller specifikke websider. Læs OpenAI's fuld dokumentation her.
OpenAI har offentliggjort følgende oplysninger:
GPTBot er identificeret ved sit brugeragent-token "GPTBot". Den komplette brugeragentstreng, der er forbundet med den, er: "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)".
Ved at redigere robots.txt-filen kan GPTBot blokeres fra at få adgang til et helt website eller udvalgte dele af det.
For at forhindre GPTBot i at få adgang til et websted kan administratorer redigere deres websteds robots.txt-fil på følgende måde:
Bruger-agent: GPTBot
Afvis tilladelse: /
Dele af hjemmesider kan tillades/afvises ved hjælp af følgende:
Bruger-agent: GPTBot
Tillad: /katalog-1/
Afvis tilladelse: /katalog-2/
OpenAI har også offentliggjort de IP-intervaller, der bruges af GPTBot tilgængelig her. Selv om der kun er én serie på listen, kan der komme flere til med tiden.