OpenAI presenterar på ett diskret sätt sin egen dataskrapa, GPTBot

OpenAI presenterade diskret GPTBot, en dedikerad webbskrapa för insamling av träningsdata.

Redigera: Det är för närvarande oklart om GPTBot är samma/uppdaterade bot som OpenAI använde för att skrapa data tillsammans med Common Crawl 2018/2019 eller om detta är en ny/utvecklad version. Hur som helst är det första gången de publicerar data om hur man förhindrar att den skrapar webbplatsdata.

OpenAI har publicerat information om GPTBot på sin webbplats webbplats här, inklusive information om hur webbplatsadministratörer kan förhindra att den genomsöker och skrapar deras webbplatser.

För att blockera GPTBot från att genomsöka en webbplats kan administratörer justera inställningarna i filen robots.txt. Den här filen, som är ett standardverktyg för webbplatshantering sedan cirka 30 år tillbaka, anger vilka områden på webbplatsen som inte får genomsökas av sökrobotar.

För att kortfattat avgränsa genomsökning från skrapning, trålar sökrobotar genom webbplatsinnehåll medan skrapor extraherar data. Det är en tvådelad process, men vanligtvis kallas de två kollektivt helt enkelt "skrapning".

OpenAI avslöjade också det IP-adressblock som användes av GPTBot, tillgänglig härvilket ger ytterligare ett alternativ för att hämma botens aktivitet.

Vissa spekulerar i om detta ger OpenAI ytterligare ett lager av skydd mot anklagelser om otillåten dataanvändning.

OpenAI och andra AI-utvecklare är på väg att insnöad av stämningar om hur de använt människors uppgifter utan deras tillstånd.

Nu måste webbplatsadministratörer proaktivt förhindra att deras webbplatser skrapas för träningsdata, vilket innebär att de själva måste förhindra att webbplatsens data hamnar i träningsdataset.

Det är värt att notera att GPTBot inte är det enda verktyget i sitt slag. OpenAI har använt andra dataset för att träna sina modeller, inklusive Common Crawl-datasetet.

Precis som GPTBot kan CCBot crawler också styras genom att lägga till specifika kodrader i robots.txt-filen.

Så här förhindrar du att ChatGPT genomsöker webbplatsens data

OpenAI kommer att använda GPTBot för riktad dataskrapning, men den kan stoppas från att skrapa hela webbplatser eller specifika webbsidor. Läs OpenAI:s fullständig dokumentation här.

OpenAI publicerade följande information:

GPTBot identifieras av dess användaragent-token "GPTBot". Den fullständiga användaragentsträngen som är associerad med den är: "Mozilla/5.0 AppleWebKit/537.36 (KHTML, som Gecko; kompatibel; GPTBot/1.0; +https://openai.com/gptbot)".

Genom att redigera filen robots.txt kan GPTBot blockeras från att komma åt en hel webbplats eller valda delar av den.

För att hindra GPTBot från att komma åt en webbplats kan administratörer redigera webbplatsens robots.txt-fil på följande sätt:

Användaragent: GPTBot

Avvisa: /

Delar av webbplatser kan tillåtas/avvisas genom följande:

Användaragent: GPTBot

Tillåt: /katalog-1/

Avvisa: /katalog-2/

OpenAI har också offentliggjort de IP-områden som används av GPTBot tillgänglig här. Även om endast ett sortiment har listats, kan fler tillkomma i sinom tid.

OpenAI presenterar på ett diskret sätt sin egen dataskrapa, GPTBot

Så här förhindrar du att ChatGPT genomsöker webbplatsens data

Bli en del av framtiden

Sam Jeans

RELATERADE ARTIKLAR

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

OpenAI presenterar på ett diskret sätt sin egen dataskrapa, GPTBot

Så här förhindrar du att ChatGPT genomsöker webbplatsens data

Bli en del av framtiden

Sam Jeans

RELATERADE ARTIKLAR

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

GRATIS PDF EXKLUSIVLigg steget före med DailyAI

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI