Perplexity AI bevindt zich in het middelpunt van een vuurstorm over de manier waarop het gegevens verzamelt.
Perplexity versmelt een zoekmachine met generatieve AI en geeft door AI gegenereerde inhoud terug die gerelateerd is aan de zoekopdracht van de gebruiker.
De processen die dit mogelijk maken, omvatten waarschijnlijk het schrapen van inhoud van talloze websites, waaronder websites die dit expliciet verbieden.
Het schandaal brak uit op 11 juni toen Forbes meldde dat Perplexity een heel artikel van zijn site had gehaald, compleet met aangepaste illustraties, en het opnieuw had gebruikt met slechts minimale naamsvermelding.
Niet lang daarna verscheen WIRED een onderzoek uitgevoerd waarin bewijs werd gevonden van het schrapen van inhoud van websites die automatische gegevensverzameling verbieden.
Een website kan via een bestand met de naam "robots.txt" aanvragen dat zijn inhoud niet wordt geschraapt door webcrawlers.
Dit uitsluitingsprotocol communiceert met webcrawlers en andere geautomatiseerde bots. Het is een eenvoudig tekstbestand dat op de server van een website wordt geplaatst en waarin wordt gespecificeerd welke pagina's of delen van de website niet mogen worden geopend of geschraapt.
Het robots.txt-bestand is al sinds de begindagen van het web een alom gerespecteerde conventie. Het helpt website-eigenaren hun inhoud te beheren en ongeoorloofde gegevensverzameling te voorkomen.
Hoewel het niet wettelijk verplicht is, wordt het al lang beschouwd als de beste werkwijze voor webcrawlers om de instructies in het robots.txt-bestand van een website op te volgen.
Jason Kint, CEO van Digitale inhoud Volgende, een handelsgroep die online uitgevers vertegenwoordigt, nam geen blad voor de mond in zijn beoordeling van Perplexity's web scraping-processen.
"AI-bedrijven zouden er standaard van uit moeten gaan dat ze niet het recht hebben om zonder toestemming inhoud van uitgevers over te nemen en te hergebruiken," zei hij.
"Als Perplexity de servicevoorwaarden of robots.txt omzeilt, zouden de rode alarmbellen moeten afgaan dat er iets ongepasts aan de hand is."
Amazon onderzoekt
Deze onthullingen hebben ertoe geleid dat Amazon Web Services (AWS), dat een server host die betrokken zou zijn bij Perplexity's vermeende ongepaste scraping, een onderzoek is gestart.
AWS verbiedt klanten ten strengste om zich bezig te houden met misbruik of illegale activiteiten die de servicevoorwaarden schenden.
Aravind Srinivas, CEO van Perplexity, wuifde de bezorgdheid aanvankelijk weg door te beweren dat deze "een diep en fundamenteel misverstand" weerspiegelde over de activiteiten van het bedrijf en het internet in het algemeen.
In een latere interview met Fast Companygaf hij toe dat Perplexity vertrouwde op een niet nader genoemde derde partij voor webcrawling en indexering, wat suggereerde dat zij de schuldige waren voor eventuele schendingen van robots.txt.
Srinivas weigerde het bedrijf te noemen vanwege een geheimhoudingsovereenkomst.
Op dit moment lijkt Perplexity vastbesloten om de storm te doorstaan, met een woordvoerder die het AWS-onderzoek afdoet als "standaardprocedure" en aangeeft dat het bedrijf geen wijzigingen heeft aangebracht in zijn activiteiten.
De uitdagende houding van de startup kan echter onhoudbaar blijken nu de bezorgdheid over de datapraktijken van AI blijft toenemen.