Perplexity AI inblandad i kontrovers om påstått missbruk av web scraping

Perplexity AI har hamnat i centrum för en eldstorm över sina datainsamlingsmetoder.

Perplexity kombinerar i princip en sökmotor med generativ AI och returnerar AI-genererat innehåll som är relaterat till användarens sökfråga.

De processer som möjliggör detta innebär sannolikt att innehåll skrapas från många webbplatser, inklusive sådana som uttryckligen förbjuder det.

Skandalen utbröt den 11 juni när Forbes rapporterade att Perplexity hade lyft en hel artikel från sin webbplats, komplett med anpassade illustrationer, och återanvänt den med endast minimal tillskrivning.

Inte långt därefter publicerade WIRED genomfört en utredning som avslöjade bevis för att Perplexity skrapade innehåll från webbplatser som förbjuder automatiserad datainsamling.

En webbplats kan begära att dess innehåll inte skrapas av webbsökare genom en fil som kallas "robots.txt".

Detta exkluderingsprotokoll kommunicerar med web crawlers och andra automatiserade bots. Det är en enkel textfil som placeras på en webbplats server och som anger vilka sidor eller delar av webbplatsen som inte ska nås eller skrapas.

Filen robots.txt har varit en allmänt respekterad konvention sedan webbens tidiga dagar. Den hjälper webbplatsägare att kontrollera sitt innehåll och förhindra obehörig datainsamling.

Även om det inte är juridiskt bindande har det länge ansetts vara bästa praxis för webbsökare att följa instruktionerna i en webbplats robots.txt-fil.

Jason Kint, VD och koncernchef för Digitalt innehåll Nästa, en branschorganisation som representerar onlinepublicister, skrädde inte orden i sin bedömning av Perplexitys webbskrapningsprocesser.

"Som standard bör AI-företag utgå från att de inte har rätt att ta och återanvända utgivares innehåll utan tillstånd", säger han.

"Om Perplexity kringgår användarvillkor eller robots.txt borde de röda larmen gå om att något olämpligt pågår."

Amazon undersöker

Dessa avslöjanden har föranlett Amazon Web Services (AWS), som är värd för en server som är inblandad i Perplexitys påstådda otillbörliga skrapning, att inleda en utredning.

AWS förbjuder strikt kunder från att engagera sig i kränkande eller olagliga aktiviteter som bryter mot dess användarvillkor.

Perplexitys VD Aravind Srinivas avfärdade inledningsvis kritiken och hävdade att den återspeglade "en djup och grundläggande missuppfattning" av företagets verksamhet och internet i stort.

I en efterföljande intervju med Fast Companymedgav han att Perplexity förlitade sig på en icke namngiven tredjepartsleverantör för webbgenomsökning och indexering, vilket tyder på att de var skyldiga till eventuella överträdelser av robots.txt.

Srinivas avböjde att identifiera företaget med hänvisning till ett sekretessavtal.

För tillfället verkar Perplexity vara fast beslutna att rida ut stormen, och en talesperson bagatelliserar AWS-undersökningen som "standardförfarande" och indikerar att företaget inte har gjort några förändringar i sin verksamhet.

Startupens trotsiga hållning kan dock visa sig vara ohållbar när grundvattnet av oro över AI: s datapraxis fortsätter att bygga.

Perplexity AI inblandad i kontrovers om påstått missbruk av web scraping

Amazon undersöker

Bli en del av framtiden

Sam Jeans

RELATERADE ARTIKLAR

Spelbranschen står inför en medelålderskris - är AI dess framtid?

OpenAI presenterar Realtime API och andra funktioner för utvecklare

Kaliforniens guvernör Gavin Newsom lägger in sitt veto mot SB 1047 Lagförslag om AI-säkerhet

Hur går det för Kina i AI-racet? Teknikjättar och nystartade företag tänjer på gränserna

Perplexity AI inblandad i kontrovers om påstått missbruk av web scraping

Amazon undersöker

Bli en del av framtiden

Sam Jeans

RELATERADE ARTIKLAR

Spelbranschen står inför en medelålderskris - är AI dess framtid?

OpenAI presenterar Realtime API och andra funktioner för utvecklare

Kaliforniens guvernör Gavin Newsom lägger in sitt veto mot SB 1047 Lagförslag om AI-säkerhet

Hur går det för Kina i AI-racet? Teknikjättar och nystartade företag tänjer på gränserna

GRATIS PDF EXKLUSIVLigg steget före med DailyAI

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI