OpenAI presenterade diskret GPTBot, en dedikerad webbskrapa för insamling av träningsdata.
Redigera: Det är för närvarande oklart om GPTBot är samma/uppdaterade bot som OpenAI använde för att skrapa data tillsammans med Common Crawl 2018/2019 eller om detta är en ny/utvecklad version. Hur som helst är det första gången de publicerar data om hur man förhindrar att den skrapar webbplatsdata.
OpenAI har publicerat information om GPTBot på sin webbplats webbplats här, inklusive information om hur webbplatsadministratörer kan förhindra att den genomsöker och skrapar deras webbplatser.
För att blockera GPTBot från att genomsöka en webbplats kan administratörer justera inställningarna i filen robots.txt. Den här filen, som är ett standardverktyg för webbplatshantering sedan cirka 30 år tillbaka, anger vilka områden på webbplatsen som inte får genomsökas av sökrobotar.
För att kortfattat avgränsa genomsökning från skrapning, trålar sökrobotar genom webbplatsinnehåll medan skrapor extraherar data. Det är en tvådelad process, men vanligtvis kallas de två kollektivt helt enkelt "skrapning".
OpenAI avslöjade också det IP-adressblock som användes av GPTBot, tillgänglig härvilket ger ytterligare ett alternativ för att hämma botens aktivitet.
Vissa spekulerar i om detta ger OpenAI ytterligare ett lager av skydd mot anklagelser om otillåten dataanvändning.
OpenAI och andra AI-utvecklare är på väg att insnöad av stämningar om hur de använt människors uppgifter utan deras tillstånd.
Nu måste webbplatsadministratörer proaktivt förhindra att deras webbplatser skrapas för träningsdata, vilket innebär att de själva måste förhindra att webbplatsens data hamnar i träningsdataset.
Det är värt att notera att GPTBot inte är det enda verktyget i sitt slag. OpenAI har använt andra dataset för att träna sina modeller, inklusive Common Crawl-datasetet.
Precis som GPTBot kan CCBot crawler också styras genom att lägga till specifika kodrader i robots.txt-filen.
Så här förhindrar du att ChatGPT genomsöker webbplatsens data
OpenAI kommer att använda GPTBot för riktad dataskrapning, men den kan stoppas från att skrapa hela webbplatser eller specifika webbsidor. Läs OpenAI:s fullständig dokumentation här.
OpenAI publicerade följande information:
GPTBot identifieras av dess användaragent-token "GPTBot". Den fullständiga användaragentsträngen som är associerad med den är: "Mozilla/5.0 AppleWebKit/537.36 (KHTML, som Gecko; kompatibel; GPTBot/1.0; +https://openai.com/gptbot)".
Genom att redigera filen robots.txt kan GPTBot blockeras från att komma åt en hel webbplats eller valda delar av den.
För att hindra GPTBot från att komma åt en webbplats kan administratörer redigera webbplatsens robots.txt-fil på följande sätt:
Användaragent: GPTBot
Avvisa: /
Delar av webbplatser kan tillåtas/avvisas genom följande:
Användaragent: GPTBot
Tillåt: /katalog-1/
Avvisa: /katalog-2/
OpenAI har också offentliggjort de IP-områden som används av GPTBot tillgänglig här. Även om endast ett sortiment har listats, kan fler tillkomma i sinom tid.