Perplexity AI har hamnat i centrum för en eldstorm över sina datainsamlingsmetoder.
Perplexity kombinerar i princip en sökmotor med generativ AI och returnerar AI-genererat innehåll som är relaterat till användarens sökfråga.
De processer som möjliggör detta innebär sannolikt att innehåll skrapas från många webbplatser, inklusive sådana som uttryckligen förbjuder det.
Skandalen utbröt den 11 juni när Forbes rapporterade att Perplexity hade lyft en hel artikel från sin webbplats, komplett med anpassade illustrationer, och återanvänt den med endast minimal tillskrivning.
Inte långt därefter publicerade WIRED genomfört en utredning som avslöjade bevis för att Perplexity skrapade innehåll från webbplatser som förbjuder automatiserad datainsamling.
En webbplats kan begära att dess innehåll inte skrapas av webbsökare genom en fil som kallas "robots.txt".
Detta exkluderingsprotokoll kommunicerar med web crawlers och andra automatiserade bots. Det är en enkel textfil som placeras på en webbplats server och som anger vilka sidor eller delar av webbplatsen som inte ska nås eller skrapas.
Filen robots.txt har varit en allmänt respekterad konvention sedan webbens tidiga dagar. Den hjälper webbplatsägare att kontrollera sitt innehåll och förhindra obehörig datainsamling.
Även om det inte är juridiskt bindande har det länge ansetts vara bästa praxis för webbsökare att följa instruktionerna i en webbplats robots.txt-fil.
Jason Kint, VD och koncernchef för Digitalt innehåll Nästa, en branschorganisation som representerar onlinepublicister, skrädde inte orden i sin bedömning av Perplexitys webbskrapningsprocesser.
"Som standard bör AI-företag utgå från att de inte har rätt att ta och återanvända utgivares innehåll utan tillstånd", säger han.
"Om Perplexity kringgår användarvillkor eller robots.txt borde de röda larmen gå om att något olämpligt pågår."
Amazon undersöker
Dessa avslöjanden har föranlett Amazon Web Services (AWS), som är värd för en server som är inblandad i Perplexitys påstådda otillbörliga skrapning, att inleda en utredning.
AWS förbjuder strikt kunder från att engagera sig i kränkande eller olagliga aktiviteter som bryter mot dess användarvillkor.
Perplexitys VD Aravind Srinivas avfärdade inledningsvis kritiken och hävdade att den återspeglade "en djup och grundläggande missuppfattning" av företagets verksamhet och internet i stort.
I en efterföljande intervju med Fast Companymedgav han att Perplexity förlitade sig på en icke namngiven tredjepartsleverantör för webbgenomsökning och indexering, vilket tyder på att de var skyldiga till eventuella överträdelser av robots.txt.
Srinivas avböjde att identifiera företaget med hänvisning till ett sekretessavtal.
För tillfället verkar Perplexity vara fast beslutna att rida ut stormen, och en talesperson bagatelliserar AWS-undersökningen som "standardförfarande" och indikerar att företaget inte har gjort några förändringar i sin verksamhet.
Startupens trotsiga hållning kan dock visa sig vara ohållbar när grundvattnet av oro över AI: s datapraxis fortsätter att bygga.