OpenAI ha reso noto il suo GPTBot all'inizio del mese e da allora i siti più importanti di Internet si sono sempre più mossi per bloccare l'accesso del web scraper ai loro siti.
Rilevatore di contenuti AI, Originalità.aiha tenuto sotto controllo i primi 1.000 siti web per vedere quali di essi hanno bloccato i web scrapers come GPTBot.
Bloccare GPTBot dallo scraping di un sito web è facile aggiungendo due righe al file robots.txt del sito. E sempre più siti stanno iniziando a farlo.
I dati riportati nel report di Originality.ai mostrano che una settimana fa 91 siti hanno bloccato GPTBot. Poco più di una settimana dopo, la cifra è salita a 111, con un aumento di 22%
Un aumento di 20 siti non sembra molto, ma se si considera la quantità di dati che questi siti hanno e continuano a produrre, è significativo. I primi 5 siti che ora bloccano GPTBot sono:
amazon.com
quora.com
indeed.com
nytimes.com
shutterstock.com
La quantità di dati che OpenAI ha reso off-limits per l'addestramento dei suoi modelli, provenienti solo da questi cinque siti web, è considerevole.
Se si guarda a l'elenco completo dei 1.000 siti è interessante notare quali hanno bloccato GPTBot e quali hanno deciso di non farlo, per ora.
Mentre Shutterstock ha bloccato GPTBot, altri siti di fotografia stock come iStock non lo hanno fatto. Quando si tratta di fotografia di stock, c'è da chiedersi se quel particolare cavallo che raschia l'IA non sia già scappato qualche tempo fa.
È più logico che aziende giornalistiche come il New York Times e la CNN abbiano bloccato il bot. Ma altri siti di notizie di primo piano come Forbes e The Guardian hanno finora scelto di non bloccare lo scraper.
OpenAI ha dichiarato che permettere a GPTBot di effettuare lo scraping dei siti "può aiutare i modelli di AI a diventare più precisi e a migliorare le loro capacità generali e la loro sicurezza". L'azienda ha inoltre dichiarato che il suo bot non sbircia dietro i paywall e non guarda ai siti che raccolgono informazioni personali.
È possibile che siti come YouTube, X e BBC prendano in parola OpenAI e vedano il valore potenziale nel permettere ai bot AI di utilizzare i loro dati in modo responsabile. Se decidessero di utilizzare ChatGPT nelle loro attività, vorrebbero che funzionasse nel modo migliore possibile.
Queste aziende potrebbero anche rendersi conto del traffico potenziale che potrebbero perdere se bloccassero il più grande scraper dell'AI. Immaginate cosa accadrebbe al loro traffico se i siti web decidessero di bloccare il bot di Google per principio.
È interessante notare che nessuno dei siti presenti nell'elenco ha bloccato il bot di Anthropic. L'industria in generale ritiene che OpenAI tratterà i suoi dati in modo diverso da Anthropic?
Si potrebbe pensare che se un'azienda decidesse di bloccare gli scraper di IA li bloccherebbe tutti, e non solo uno.
OpenAI è coinvolto in alcune cause legali di riferimento sul copyright dell'intelligenza artificiale che potrebbe potenzialmente fare una grande differenza in questo elenco. Sarà interessante vedere quali grandi siti decideranno di bloccare il bot e se alcuni di essi cambieranno la loro decisione.