Perplexity AI indblandet i kontrovers om påstået misbrug af webscraping

30. juni 2024

  • AI-startup Perplexity AI er i vælten på grund af sine dataindsamlingsprocesser
  • Dette omfatter gengivelse af ophavsretligt beskyttet arbejde fra nyhedssider uden kildeangivelse.
  • Perplexitys partner, Amazon, har nu iværksat en undersøgelse af virksomheden.
forvirring

Perplexity AI har befundet sig i centrum af en ildstorm over sin dataindsamlingspraksis. 

Perplexity fusionerer i bund og grund en søgemaskine med generativ AI og returnerer AI-genereret indhold, der er relateret til brugerens søgeforespørgsel.  

Processerne, der muliggør dette, involverer sandsynligvis scraping af indhold fra adskillige hjemmesider, inklusive dem, der udtrykkeligt forbyder det. 

Skandalen brød ud den 11. juni, da Forbes rapporterede at Perplexity havde taget en hel artikel fra sin hjemmeside, komplet med brugerdefinerede illustrationer, og genbrugt den med kun minimal tilskrivning. 

Ikke længe efter skrev WIRED gennemførte en undersøgelse der afslørede beviser for, at Perplexity skrabede indhold fra hjemmesider, der forbyder automatisk dataindsamling. 

Et website kan anmode om, at dets indhold ikke bliver scrapet af webcrawlere gennem en fil, der hedder "robots.txt".

Denne udelukkelsesprotokol kommunikerer med webcrawlere og andre automatiserede bots. Det er en simpel tekstfil, der placeres på en hjemmesides server, og som angiver, hvilke sider eller sektioner af hjemmesiden, der ikke må tilgås eller skrabes.

Robots.txt-filen har været en bredt respekteret konvention siden nettets tidlige dage. Den hjælper hjemmesideejere med at kontrollere deres indhold og forhindre uautoriseret dataindsamling.

Selv om det ikke er juridisk bindende, har det længe været betragtet som bedste praksis for webcrawlere at følge instruktionerne i en hjemmesides robots.txt-fil.

Jason Kint, administrerende direktør for Digitalt indhold næste gangen handelsgruppe, der repræsenterer onlineudgivere, lagde ikke fingrene imellem i sin vurdering af Perplexitys webscrapingprocesser. 

"Som standard bør AI-virksomheder gå ud fra, at de ikke har ret til at tage og genbruge udgiveres indhold uden tilladelse", sagde han. 

"Hvis Perplexity omgår servicevilkår eller robots.txt, burde de røde alarmer gå i gang om, at der foregår noget upassende."

Amazon undersøger

Disse afsløringer har fået Amazon Web Services (AWS), som er vært for en server, der er involveret i Perplexitys påståede upassende scraping, til at iværksætte en undersøgelse. 

AWS forbyder strengt kunder at deltage i krænkende eller ulovlige aktiviteter, der overtræder dets servicevilkår.

Perplexitys CEO Aravind Srinivas afviste i første omgang bekymringerne og hævdede, at de afspejlede "en dyb og grundlæggende misforståelse" af virksomhedens aktiviteter og internettet i det hele taget. 

Men i en efterfølgende interview med Fast Companyindrømmede han, at Perplexity var afhængig af en unavngiven tredjepartsleverandør til webcrawling og indeksering, hvilket tyder på, at de var skyld i eventuelle overtrædelser af robots.txt. 

Srinivas afviste at identificere virksomheden med henvisning til en hemmeligholdelsesaftale.

I øjeblikket ser Perplexity ud til at være fast besluttet på at ride stormen af. En talsmand bagatelliserer AWS-undersøgelsen som "standardprocedure" og oplyser, at virksomheden ikke har foretaget nogen ændringer i sine aktiviteter. 

Startup-virksomhedens trodsige holdning kan dog vise sig at være uholdbar i takt med, at bekymringen over AI's datapraksis fortsætter med at vokse.

Deltag i fremtiden


TILMELD DIG I DAG

Klar, kortfattet, omfattende. Få styr på AI-udviklingen med DailyAI

Sam Jeans

Sam er videnskabs- og teknologiforfatter og har arbejdet i forskellige AI-startups. Når han ikke skriver, kan han finde på at læse medicinske tidsskrifter eller grave i kasser med vinylplader.

×

GRATIS PDF EKSKLUSIVT
Vær på forkant med DailyAI

Tilmeld dig vores ugentlige nyhedsbrev og få eksklusiv adgang til DailyAI's seneste e-bog: 'Mastering AI Tools: Din 2024-guide til forbedret produktivitet'.

*Ved at tilmelde dig vores nyhedsbrev accepterer du vores Politik for beskyttelse af personlige oplysninger og vores Vilkår og betingelser