OpenAI presenterar på ett diskret sätt sin egen dataskrapa, GPTBot

7 augusti 2023

OpenAI GPTBot

OpenAI presenterade diskret GPTBot, en dedikerad webbskrapa för insamling av träningsdata.

Redigera: Det är för närvarande oklart om GPTBot är samma/uppdaterade bot som OpenAI använde för att skrapa data tillsammans med Common Crawl 2018/2019 eller om detta är en ny/utvecklad version. Hur som helst är det första gången de publicerar data om hur man förhindrar att den skrapar webbplatsdata.

OpenAI har publicerat information om GPTBot på sin webbplats webbplats här, inklusive information om hur webbplatsadministratörer kan förhindra att den genomsöker och skrapar deras webbplatser. 

För att blockera GPTBot från att genomsöka en webbplats kan administratörer justera inställningarna i filen robots.txt. Den här filen, som är ett standardverktyg för webbplatshantering sedan cirka 30 år tillbaka, anger vilka områden på webbplatsen som inte får genomsökas av sökrobotar. 

För att kortfattat avgränsa genomsökning från skrapning, trålar sökrobotar genom webbplatsinnehåll medan skrapor extraherar data. Det är en tvådelad process, men vanligtvis kallas de två kollektivt helt enkelt "skrapning".

OpenAI avslöjade också det IP-adressblock som användes av GPTBot, tillgänglig härvilket ger ytterligare ett alternativ för att hämma botens aktivitet. 

Vissa spekulerar i om detta ger OpenAI ytterligare ett lager av skydd mot anklagelser om otillåten dataanvändning.

OpenAI och andra AI-utvecklare är på väg att insnöad av stämningar om hur de använt människors uppgifter utan deras tillstånd. 

Nu måste webbplatsadministratörer proaktivt förhindra att deras webbplatser skrapas för träningsdata, vilket innebär att de själva måste förhindra att webbplatsens data hamnar i träningsdataset. 

Det är värt att notera att GPTBot inte är det enda verktyget i sitt slag. OpenAI har använt andra dataset för att träna sina modeller, inklusive Common Crawl-datasetet. 

Precis som GPTBot kan CCBot crawler också styras genom att lägga till specifika kodrader i robots.txt-filen.

Så här förhindrar du att ChatGPT genomsöker webbplatsens data

OpenAI kommer att använda GPTBot för riktad dataskrapning, men den kan stoppas från att skrapa hela webbplatser eller specifika webbsidor. Läs OpenAI:s fullständig dokumentation här.

OpenAI publicerade följande information:

GPTBot identifieras av dess användaragent-token "GPTBot". Den fullständiga användaragentsträngen som är associerad med den är: "Mozilla/5.0 AppleWebKit/537.36 (KHTML, som Gecko; kompatibel; GPTBot/1.0; +https://openai.com/gptbot)".

Genom att redigera filen robots.txt kan GPTBot blockeras från att komma åt en hel webbplats eller valda delar av den. 

För att hindra GPTBot från att komma åt en webbplats kan administratörer redigera webbplatsens robots.txt-fil på följande sätt:

Användaragent: GPTBot

Avvisa: /

Delar av webbplatser kan tillåtas/avvisas genom följande:

Användaragent: GPTBot

Tillåt: /katalog-1/

Avvisa: /katalog-2/

OpenAI har också offentliggjort de IP-områden som används av GPTBot tillgänglig här. Även om endast ett sortiment har listats, kan fler tillkomma i sinom tid.

Bli en del av framtiden


PRENUMERERA IDAG

Tydlig, kortfattad och heltäckande. Få grepp om AI-utvecklingen med DagligaAI

Sam Jeans

Sam är en vetenskaps- och teknikskribent som har arbetat i olika AI-startups. När han inte skriver läser han medicinska tidskrifter eller gräver igenom lådor med vinylskivor.

×

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI

Registrera dig för vårt veckovisa nyhetsbrev och få exklusiv tillgång till DailyAI:s senaste e-bok: "Mastering AI Tools: Din 2024-guide till förbättrad produktivitet".

*Genom att prenumerera på vårt nyhetsbrev accepterar du vår Integritetspolicy och våra Villkor och anvisningar