Uno studio del Reuters Institute for the Study of Journalism dell'Università di Oxford ha rilevato che un numero maggiore di siti di notizie in tutto il mondo sta bloccando i web crawler dell'intelligenza artificiale.
Il studio, redatto dal Dr. Richard Fletcher, direttore della ricerca presso il Reuters Institute for the Study of Journalism, ha rilevato che quasi la metà (48%) dei siti di notizie più popolari in tutto il mondo sono ora inaccessibili ai crawler di OpenAI, mentre i crawler dell'IA di Google sono bloccati da 24% di siti.
Nuovo @risj_oxford che si chiede: Quanti siti web di notizie bloccano le IA generative come ChatGPT e Gemini dall'utilizzare i loro contenuti per addestrare i loro modelli?
Dipende dal paese. Ci sono grandi differenze nel numero di siti di notizie di primo piano che vengono bloccati e nel tempo in cui hanno iniziato a farlo. pic.twitter.com/CaebVc4gfZ
- Richard Fletcher (@richrdfletcher) 22 febbraio 2024
I crawler di IA sono progettati per setacciare Internet e raccogliere dati per i modelli di IA come ChatGPT e Gemini. Ciò garantisce una fornitura costante di informazioni aggiornate, fondamentali per mantenere le risposte dell'IA accurate e pertinenti.
Senza dati freschi, i modelli di IA rimarranno bloccati nel tempo e non saranno in grado di adattarsi ai progressi del mondo reale. Se i modelliI modelli consumano troppi dati di scarsa qualità, sintetici e generati dall'intelligenza artificiale, piuttosto che nuovi dati di alta qualità prodotti dall'uomo. potrebbe addirittura andare incontro al collasso del modello.
Perché i siti di notizie bloccano i web crawler dell'intelligenza artificiale? Sono preoccupati soprattutto per il copyright e l'equo compenso, per il timore di diffondere disinformazione e per la potenziale perdita di traffico diretto verso i siti di notizie.
Il Il New York Times fa causa a OpenAI e Microsoft per violazione del diritto d'autore, unendosi a una schiera di autori, artisti e aziende che sostengono che gli sviluppatori di intelligenza artificiale abbiano utilizzato i loro dati in modo illecito.
Le aziende di intelligenza artificiale comprendono il problema. Per questo motivo stanno stringendo accordi di licenza con aziende del settore dei media come L'accordo di OpenAI con Axel Springer dello scorso anno.
Colosso dei contenuti Reddit è l'ultimo nato per tentare le aziende di IA con accordi di licenza di contenuti multimilionari.
Approfondimenti chiave
Ecco alcuni dati chiave del rapporto:
- A partire dalla fine del 2023, 48% di importanti piattaforme di notizie a livello internazionale hanno limitato l'accesso ai crawler di OpenAI, con un minor numero di 24% fare lo stesso per il crawler AI di Google.
- In particolare, 97% dei siti che bloccano l'IA di Google è stato riscontrato che bloccano anche i crawler di OpenAI.
- La probabilità che i siti web blocchino i crawler dell'intelligenza artificiale varia in modo significativo a seconda del paese, con le percentuali più alte osservate negli Stati Uniti (79%) e il più basso in Messico e Polonia (20%).
- Per tutto il 2023, non sono stati registrati casi di siti web che hanno cambiato la loro decisione di bloccare i crawler dell'intelligenza artificiale.
- Le testate giornalistiche più grandi hanno dimostrato una propensione leggermente superiore a bloccare i crawler dell'IA rispetto a quelle più piccole.
- La tendenza a bloccare varia tra i diversi tipi di organizzazioni giornalistiche. La stampa tradizionale (57%) è in testa ai blocchi, rispetto a quella digitale (31%).
Le aziende giornalistiche stanno evidentemente rafforzando le loro difese contro i web crawler dell'IA, e le aziende dell'IA dovranno probabilmente trattare la loro via d'uscita per mantenere i loro modelli aggiornati in modo convincente.
L'alternativa è terribile. Le prestazioni dei modelli di intelligenza artificiale miglioreranno, ma la conoscenza diventerà lentamente obsoleta fino a raggiungere tassi di allucinazione insoddisfacenti, imprecisione, ridondanza e irrilevanza.