Perplexity AI si è trovata al centro di una polemica per le sue pratiche di raccolta dati.
Perplexity fonde essenzialmente un motore di ricerca con l'IA generativa, restituendo contenuti generati dall'IA in relazione alla query di ricerca dell'utente.
I processi che consentono di farlo comportano probabilmente lo scraping di contenuti da numerosi siti web, compresi quelli che lo vietano esplicitamente.
Lo scandalo è scoppiato l'11 giugno quando Forbes ha riportato che Perplexity aveva preso un intero articolo dal suo sito, completo di illustrazioni personalizzate, e lo aveva riproposto con una minima attribuzione.
Non molto tempo dopo, WIRED ha condotto un'indagine che ha portato alla luce prove di Perplexity che raschiava contenuti da siti web che vietano la raccolta automatica di dati.
Un sito web può richiedere che il suo contenuto non venga raschiato dai web crawler attraverso un file chiamato "robots.txt".
Questo protocollo di esclusione comunica con i web crawler e altri bot automatici. Si tratta di un semplice file di testo collocato sul server di un sito web che specifica quali pagine o sezioni del sito non devono essere accessibili o scrapate.
Il file robots.txt è una convenzione ampiamente rispettata fin dagli albori del web. Aiuta i proprietari di siti web a controllare i loro contenuti e a prevenire la raccolta di dati non autorizzati.
Sebbene non sia giuridicamente vincolante, da tempo si ritiene che i web crawler debbano seguire le istruzioni delineate nel file robots.txt di un sito web.
Jason Kint, CEO di Contenuto digitale Next, un gruppo di categoria che rappresenta gli editori online, non ha usato mezzi termini nel valutare i processi di web scraping di Perplexity.
"Per impostazione predefinita, le aziende di IA dovrebbero presumere di non avere il diritto di prendere e riutilizzare i contenuti degli editori senza autorizzazione", ha affermato.
"Se Perplexity sta eludendo i termini di servizio o il robots.txt, dovrebbero scattare gli allarmi rossi che qualcosa di improprio sta accadendo".
Amazon indaga
Queste rivelazioni hanno spinto Amazon Web Services (AWS), che ospita un server coinvolto nel presunto scraping improprio di Perplexity, ad avviare un'indagine.
AWS vieta severamente ai clienti di intraprendere attività abusive o illegali che violino i suoi termini di servizio.
L'amministratore delegato di Perplexity, Aravind Srinivas, ha inizialmente respinto le preoccupazioni, affermando che esse riflettevano "una profonda e fondamentale incomprensione" delle operazioni dell'azienda e di Internet in generale.
Tuttavia, in un successivo intervista a Fast CompanyIl presidente ha ammesso che Perplexity si è affidata a un fornitore di terze parti non nominato per il crawling e l'indicizzazione del Web, suggerendo che la colpa di eventuali violazioni del file robots.txt sia da attribuire a tale fornitore.
Srinivas ha rifiutato di identificare l'azienda, citando un accordo di non divulgazione.
Per il momento, Perplexity sembra decisa a superare la tempesta: un portavoce ha minimizzato l'indagine dell'AWS come "procedura standard" e ha indicato che l'azienda non ha apportato modifiche alle sue operazioni.
Tuttavia, la posizione di sfida della startup potrebbe rivelarsi insostenibile, dato che l'ondata di preoccupazione per le pratiche di trattamento dei dati dell'IA continua a crescere.