Perplexity AI coinvolta in una controversia per presunto abuso di web scraping

30 giugno 2024

  • La startup Perplexity AI è in difficoltà per i suoi processi di raccolta dati
  • Ciò include il rigurgito di lavori protetti da copyright da siti di notizie senza attribuzione.
  • Il partner di Perplexity, Amazon, ha avviato un'indagine sull'azienda.
perplessità

Perplexity AI si è trovata al centro di una polemica per le sue pratiche di raccolta dati. 

Perplexity fonde essenzialmente un motore di ricerca con l'IA generativa, restituendo contenuti generati dall'IA in relazione alla query di ricerca dell'utente.  

I processi che consentono di farlo comportano probabilmente lo scraping di contenuti da numerosi siti web, compresi quelli che lo vietano esplicitamente. 

Lo scandalo è scoppiato l'11 giugno quando Forbes ha riportato che Perplexity aveva preso un intero articolo dal suo sito, completo di illustrazioni personalizzate, e lo aveva riproposto con una minima attribuzione. 

Non molto tempo dopo, WIRED ha condotto un'indagine che ha portato alla luce prove di Perplexity che raschiava contenuti da siti web che vietano la raccolta automatica di dati. 

Un sito web può richiedere che il suo contenuto non venga raschiato dai web crawler attraverso un file chiamato "robots.txt".

Questo protocollo di esclusione comunica con i web crawler e altri bot automatici. Si tratta di un semplice file di testo collocato sul server di un sito web che specifica quali pagine o sezioni del sito non devono essere accessibili o scrapate.

Il file robots.txt è una convenzione ampiamente rispettata fin dagli albori del web. Aiuta i proprietari di siti web a controllare i loro contenuti e a prevenire la raccolta di dati non autorizzati.

Sebbene non sia giuridicamente vincolante, da tempo si ritiene che i web crawler debbano seguire le istruzioni delineate nel file robots.txt di un sito web.

Jason Kint, CEO di Contenuto digitale Next, un gruppo di categoria che rappresenta gli editori online, non ha usato mezzi termini nel valutare i processi di web scraping di Perplexity. 

"Per impostazione predefinita, le aziende di IA dovrebbero presumere di non avere il diritto di prendere e riutilizzare i contenuti degli editori senza autorizzazione", ha affermato. 

"Se Perplexity sta eludendo i termini di servizio o il robots.txt, dovrebbero scattare gli allarmi rossi che qualcosa di improprio sta accadendo".

Amazon indaga

Queste rivelazioni hanno spinto Amazon Web Services (AWS), che ospita un server coinvolto nel presunto scraping improprio di Perplexity, ad avviare un'indagine. 

AWS vieta severamente ai clienti di intraprendere attività abusive o illegali che violino i suoi termini di servizio.

L'amministratore delegato di Perplexity, Aravind Srinivas, ha inizialmente respinto le preoccupazioni, affermando che esse riflettevano "una profonda e fondamentale incomprensione" delle operazioni dell'azienda e di Internet in generale. 

Tuttavia, in un successivo intervista a Fast CompanyIl presidente ha ammesso che Perplexity si è affidata a un fornitore di terze parti non nominato per il crawling e l'indicizzazione del Web, suggerendo che la colpa di eventuali violazioni del file robots.txt sia da attribuire a tale fornitore. 

Srinivas ha rifiutato di identificare l'azienda, citando un accordo di non divulgazione.

Per il momento, Perplexity sembra decisa a superare la tempesta: un portavoce ha minimizzato l'indagine dell'AWS come "procedura standard" e ha indicato che l'azienda non ha apportato modifiche alle sue operazioni. 

Tuttavia, la posizione di sfida della startup potrebbe rivelarsi insostenibile, dato che l'ondata di preoccupazione per le pratiche di trattamento dei dati dell'IA continua a crescere.

Partecipa al futuro


ISCRIVITI OGGI

Chiaro, conciso, completo. Per conoscere gli sviluppi dell'IA con DailyAI

Sam Jeans

Sam è uno scrittore di scienza e tecnologia che ha lavorato in diverse startup di intelligenza artificiale. Quando non scrive, lo si può trovare a leggere riviste mediche o a scavare tra scatole di dischi in vinile.

×

PDF GRATUITO ESCLUSIVO
Rimanere all'avanguardia con DailyAI

Iscriviti alla nostra newsletter settimanale e ricevi l'accesso esclusivo all'ultimo eBook di DailyAI: 'Mastering AI Tools: La tua guida 2024 per una maggiore produttività".

*Iscrivendosi alla nostra newsletter si accetta la nostra Informativa sulla privacy e il nostro Termini e condizioni