OpenAI ha presentato con discrezione GPTBot, un web scraper dedicato alla raccolta dei dati di addestramento.
Modifica: Al momento non è chiaro se GPTBot sia lo stesso bot aggiornato utilizzato da OpenAI per lo scraping dei dati insieme a Common Crawl nel 2018/2019 o se si tratti di una versione nuova/evoluta. In ogni caso, è la prima volta che vengono pubblicati dati su come evitare che il bot effettui lo scraping dei dati dei siti web.
OpenAI ha pubblicato informazioni su GPTBot sul suo sito web sito web quie che include dettagli su come gli amministratori dei siti web possono impedirgli di effettuare il crawling e lo scraping dei loro siti.
Per bloccare GPTBot dal crawling di un sito web, gli amministratori possono regolare le impostazioni del file robots.txt. Questo file, uno strumento standard nella gestione dei siti web che risale a circa 30 anni fa, indica quali aree del sito web sono vietate ai crawler.
Per distinguere brevemente il crawling dallo scraping, i crawler si muovono tra i contenuti di un sito web, mentre gli scrapers ne estraggono i dati. Si tratta di un processo diviso in due parti, anche se in genere le due cose vengono chiamate semplicemente "scraping".
OpenAI ha anche rivelato il blocco di indirizzi IP utilizzato da GPTBot, disponibile qui, fornendo un'altra opzione per inibire l'attività del bot.
Alcuni ipotizzano che questo fornisca a OpenAI un ulteriore livello di protezione contro le accuse di utilizzo non autorizzato dei dati.
OpenAI e altri sviluppatori di IA vengono sommersi dalle cause legali in relazione al modo in cui hanno utilizzato i dati delle persone senza il loro permesso.
Ora gli amministratori dei siti web devono impedire in modo proattivo che i loro siti vengano sottoposti a scraping per ottenere dati di addestramento, con l'onere di evitare che i dati del loro sito finiscano nei dataset di addestramento.
Vale la pena notare che GPTBot non è l'unico strumento di questo tipo. OpenAI ha utilizzato altri set di dati per addestrare i suoi modelli, tra cui il set di dati Common Crawl.
Come GPTBot, anche il crawler CCBot può essere controllato aggiungendo linee di codice specifiche nel file robots.txt.
Come impedire a ChatGPT di strisciare i dati del vostro sito
OpenAI utilizzerà GPTBot per lo scraping mirato dei dati, ma è possibile impedirgli di scrapare interi siti web o pagine web specifiche. Leggete il documento di OpenAI documentazione completa qui.
OpenAI ha pubblicato le seguenti informazioni:
GPTBot è identificato dal token del suo user agent "GPTBot". La stringa user-agent completa ad esso associata è: "Mozilla/5.0 AppleWebKit/537.36 (KHTML, come Gecko; compatibile; GPTBot/1.0; +https://openai.com/gptbot)".
Modificando il file robots.txt, è possibile bloccare l'accesso di GPTBot a un intero sito web o a porzioni selezionate.
Per impedire a GPTBot di accedere a un sito, gli amministratori possono modificare il file robots.txt del loro sito web come segue:
User-agent: GPTBot
Disallow: /
Le parti dei siti web possono essere consentite/disconosciute in base a quanto segue:
User-agent: GPTBot
Consenti: /directory-1/
Disallow: /directory-2/
OpenAI ha anche reso pubblici gli intervalli di IP utilizzati da GPTBot disponibile qui. Sebbene sia stata elencata solo una gamma, altre potrebbero essere aggiunte a tempo debito.