I principali siti di notizie bloccano sempre più spesso i web crawler dell'intelligenza artificiale, secondo uno studio

25 febbraio 2024

Web crawler AI

Uno studio del Reuters Institute for the Study of Journalism dell'Università di Oxford ha rilevato che un numero maggiore di siti di notizie in tutto il mondo sta bloccando i web crawler dell'intelligenza artificiale.

Il studio, redatto dal Dr. Richard Fletcher, direttore della ricerca presso il Reuters Institute for the Study of Journalism, ha rilevato che quasi la metà (48%) dei siti di notizie più popolari in tutto il mondo sono ora inaccessibili ai crawler di OpenAI, mentre i crawler dell'IA di Google sono bloccati da 24% di siti.


I crawler di IA sono progettati per setacciare Internet e raccogliere dati per i modelli di IA come ChatGPT e Gemini. Ciò garantisce una fornitura costante di informazioni aggiornate, fondamentali per mantenere le risposte dell'IA accurate e pertinenti.

Senza dati freschi, i modelli di IA rimarranno bloccati nel tempo e non saranno in grado di adattarsi ai progressi del mondo reale. Se i modelliI modelli consumano troppi dati di scarsa qualità, sintetici e generati dall'intelligenza artificiale, piuttosto che nuovi dati di alta qualità prodotti dall'uomo. potrebbe addirittura andare incontro al collasso del modello

Perché i siti di notizie bloccano i web crawler dell'intelligenza artificiale? Sono preoccupati soprattutto per il copyright e l'equo compenso, per il timore di diffondere disinformazione e per la potenziale perdita di traffico diretto verso i siti di notizie. 

Il Il New York Times fa causa a OpenAI e Microsoft per violazione del diritto d'autore, unendosi a una schiera di autori, artisti e aziende che sostengono che gli sviluppatori di intelligenza artificiale abbiano utilizzato i loro dati in modo illecito.

Le aziende di intelligenza artificiale comprendono il problema. Per questo motivo stanno stringendo accordi di licenza con aziende del settore dei media come L'accordo di OpenAI con Axel Springer dello scorso anno.

Colosso dei contenuti Reddit è l'ultimo nato per tentare le aziende di IA con accordi di licenza di contenuti multimilionari. 

Approfondimenti chiave

Ecco alcuni dati chiave del rapporto:

  • A partire dalla fine del 2023, 48% di importanti piattaforme di notizie a livello internazionale hanno limitato l'accesso ai crawler di OpenAI, con un minor numero di 24% fare lo stesso per il crawler AI di Google.
  • In particolare, 97% dei siti che bloccano l'IA di Google è stato riscontrato che bloccano anche i crawler di OpenAI.
  • La probabilità che i siti web blocchino i crawler dell'intelligenza artificiale varia in modo significativo a seconda del paese, con le percentuali più alte osservate negli Stati Uniti (79%) e il più basso in Messico e Polonia (20%).
  • Per tutto il 2023, non sono stati registrati casi di siti web che hanno cambiato la loro decisione di bloccare i crawler dell'intelligenza artificiale.
  • Le testate giornalistiche più grandi hanno dimostrato una propensione leggermente superiore a bloccare i crawler dell'IA rispetto a quelle più piccole.
  • La tendenza a bloccare varia tra i diversi tipi di organizzazioni giornalistiche. La stampa tradizionale (57%) è in testa ai blocchi, rispetto a quella digitale (31%).

Le aziende giornalistiche stanno evidentemente rafforzando le loro difese contro i web crawler dell'IA, e le aziende dell'IA dovranno probabilmente trattare la loro via d'uscita per mantenere i loro modelli aggiornati in modo convincente. 

L'alternativa è terribile. Le prestazioni dei modelli di intelligenza artificiale miglioreranno, ma la conoscenza diventerà lentamente obsoleta fino a raggiungere tassi di allucinazione insoddisfacenti, imprecisione, ridondanza e irrilevanza.

Partecipa al futuro


ISCRIVITI OGGI

Chiaro, conciso, completo. Per conoscere gli sviluppi dell'IA con DailyAI

Sam Jeans

Sam è uno scrittore di scienza e tecnologia che ha lavorato in diverse startup di intelligenza artificiale. Quando non scrive, lo si può trovare a leggere riviste mediche o a scavare tra scatole di dischi in vinile.

×

PDF GRATUITO ESCLUSIVO
Rimanere all'avanguardia con DailyAI

Iscriviti alla nostra newsletter settimanale e ricevi l'accesso esclusivo all'ultimo eBook di DailyAI: 'Mastering AI Tools: La tua guida 2024 per una maggiore produttività".

*Iscrivendosi alla nostra newsletter si accetta la nostra Informativa sulla privacy e il nostro Termini e condizioni