Il Guardian si è unito a una lista crescente di siti web che hanno bloccato il GPTBot di OpenAI dallo scraping dei loro siti.
Il quotidiano britannico ha annunciato la sua decisione sul suo sito web venerdì scorso e si unisce alla CNN, alla Reuters, al Washington Post, a Bloomberg e al New York Times nel bloccando GPTBot. Sebbene non abbia fornito una spiegazione completa delle ragioni alla base della decisione, ha menzionato alcune preoccupazioni comuni del settore.
Ha citato l'attuale cause legali per il diritto d'autore di autori come Sarah Silverman e gli appelli degli editori di libri britannici a proteggere il loro lavoro dallo sfruttamento dell'IA.
Il Guardian ha riconosciuto che gli strumenti di IA generativa come ChatGPT stanno facendo cose impressionanti, ma alcuni elementi semantici dell'annuncio rivelano una visione meno entusiasta di come le aziende di IA stanno svolgendo la loro attività.
L'annuncio ha sottolineato che ChatGPT si è formata su grandi quantità di dati "raccolti" da Internet e che ha agito per impedire all'azienda di utilizzare software che "raccolgono" i suoi dati.
Non ha gridato "Basta ladri!", ma il messaggio è piuttosto chiaro.
Un portavoce dell'editore del Guardian e dell'Observer ha dichiarato: "Lo scraping di proprietà intellettuale dal sito web del Guardian per scopi commerciali è, ed è sempre stato, contrario ai nostri termini di servizio".
A dimostrazione della possibilità di consentire lo scraping dei dati in futuro, il portavoce ha dichiarato: "Il team del Guardian che si occupa delle licenze commerciali ha molti rapporti commerciali reciprocamente vantaggiosi con gli sviluppatori di tutto il mondo e non vede l'ora di costruire ulteriori rapporti di questo tipo in futuro".
È interessante notare che il Guardian ha anche espresso preoccupazione per il potenziale che l'IA generativa ha nel produrre disinformazione. Non ha spiegato in che modo questa preoccupazione sia legata alla sua decisione di bloccare GPTBot, ma in quanto editore di notizie, si tratta di un'ovvia area di preoccupazione.
A parte le questioni etiche e di copyright, è possibile che i server del sito web del The Guardian abbiano avuto problemi simili a quelli di X.
All'inizio di quest'anno Elon Musk ha dichiarato che una parte significativa del carico che i server di X stavano subendo proveniva da una una moltitudine di bot AI scraper. Non li ha bloccati del tutto e intende utilizzare i tweet pubblici per addestrare il suo modello xAI.
Quando un bot AI visita un sito web e trova un file robot.txt che lo "blocca", non effettua lo scraping del sito web per cortesia, non perché non è in grado di farlo.
Una volta risolte le questioni relative al copyright, mi chiedo quanto a lungo la cortesia continuerà a prevalere sull'insaziabile appetito di dati dell'IA.