Perplexity AI inblandad i kontrovers om påstått missbruk av web scraping

30 juni 2024

  • AI-startupen Perplexity AI är i blåsväder på grund av sina datainsamlingsprocesser
  • Detta inkluderar att återge upphovsrättsskyddat arbete från nyhetssajter utan källhänvisning
  • Perplexitys partner, Amazon, har nu inlett en utredning av företaget
förvirring

Perplexity AI har hamnat i centrum för en eldstorm över sina datainsamlingsmetoder. 

Perplexity kombinerar i princip en sökmotor med generativ AI och returnerar AI-genererat innehåll som är relaterat till användarens sökfråga.  

De processer som möjliggör detta innebär sannolikt att innehåll skrapas från många webbplatser, inklusive sådana som uttryckligen förbjuder det. 

Skandalen utbröt den 11 juni när Forbes rapporterade att Perplexity hade lyft en hel artikel från sin webbplats, komplett med anpassade illustrationer, och återanvänt den med endast minimal tillskrivning. 

Inte långt därefter publicerade WIRED genomfört en utredning som avslöjade bevis för att Perplexity skrapade innehåll från webbplatser som förbjuder automatiserad datainsamling. 

En webbplats kan begära att dess innehåll inte skrapas av webbsökare genom en fil som kallas "robots.txt".

Detta exkluderingsprotokoll kommunicerar med web crawlers och andra automatiserade bots. Det är en enkel textfil som placeras på en webbplats server och som anger vilka sidor eller delar av webbplatsen som inte ska nås eller skrapas.

Filen robots.txt har varit en allmänt respekterad konvention sedan webbens tidiga dagar. Den hjälper webbplatsägare att kontrollera sitt innehåll och förhindra obehörig datainsamling.

Även om det inte är juridiskt bindande har det länge ansetts vara bästa praxis för webbsökare att följa instruktionerna i en webbplats robots.txt-fil.

Jason Kint, VD och koncernchef för Digitalt innehåll Nästa, en branschorganisation som representerar onlinepublicister, skrädde inte orden i sin bedömning av Perplexitys webbskrapningsprocesser. 

"Som standard bör AI-företag utgå från att de inte har rätt att ta och återanvända utgivares innehåll utan tillstånd", säger han. 

"Om Perplexity kringgår användarvillkor eller robots.txt borde de röda larmen gå om att något olämpligt pågår."

Amazon undersöker

Dessa avslöjanden har föranlett Amazon Web Services (AWS), som är värd för en server som är inblandad i Perplexitys påstådda otillbörliga skrapning, att inleda en utredning. 

AWS förbjuder strikt kunder från att engagera sig i kränkande eller olagliga aktiviteter som bryter mot dess användarvillkor.

Perplexitys VD Aravind Srinivas avfärdade inledningsvis kritiken och hävdade att den återspeglade "en djup och grundläggande missuppfattning" av företagets verksamhet och internet i stort. 

I en efterföljande intervju med Fast Companymedgav han att Perplexity förlitade sig på en icke namngiven tredjepartsleverantör för webbgenomsökning och indexering, vilket tyder på att de var skyldiga till eventuella överträdelser av robots.txt. 

Srinivas avböjde att identifiera företaget med hänvisning till ett sekretessavtal.

För tillfället verkar Perplexity vara fast beslutna att rida ut stormen, och en talesperson bagatelliserar AWS-undersökningen som "standardförfarande" och indikerar att företaget inte har gjort några förändringar i sin verksamhet. 

Startupens trotsiga hållning kan dock visa sig vara ohållbar när grundvattnet av oro över AI: s datapraxis fortsätter att bygga.

Bli en del av framtiden


PRENUMERERA IDAG

Tydlig, kortfattad och heltäckande. Få grepp om AI-utvecklingen med DagligaAI

Sam Jeans

Sam är en vetenskaps- och teknikskribent som har arbetat i olika AI-startups. När han inte skriver läser han medicinska tidskrifter eller gräver igenom lådor med vinylskivor.

×

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI

Registrera dig för vårt veckovisa nyhetsbrev och få exklusiv tillgång till DailyAI:s senaste e-bok: "Mastering AI Tools: Din 2024-guide till förbättrad produktivitet".

*Genom att prenumerera på vårt nyhetsbrev accepterar du vår Integritetspolicy och våra Villkor och anvisningar