Perplexity AI innblandet i kontrovers om påstått misbruk av nettskraping

30. juni 2024

  • AI-oppstartsbedriften Perplexity AI er i hardt vær på grunn av datainnsamlingsprosessene sine
  • Dette inkluderer gjengivelse av opphavsrettsbeskyttet arbeid fra nyhetssider uten kildeangivelse
  • Perplexitys partner, Amazon, har nå satt i gang en etterforskning av selskapet
forvirring

Perplexity AI har havnet i sentrum for en storm av kritikk på grunn av sin datainnsamlingspraksis. 

Perplexity kombinerer en søkemotor med generativ AI, og returnerer AI-generert innhold som er relatert til brukerens søk.  

Prosessene som muliggjør dette, innebærer sannsynligvis skraping av innhold fra en rekke nettsteder, inkludert de som eksplisitt forbyr det. 

Skandalen brøt ut 11. juni da Forbes rapporterte at Perplexity hadde hentet en hel artikkel fra nettstedet sitt, komplett med tilpassede illustrasjoner, og brukt den på nytt med bare minimal henvisning. 

Ikke lenge etter skrev WIRED gjennomført en etterforskning som avdekket bevis på at Perplexity skraper innhold fra nettsteder som forbyr automatisk datainnsamling. 

Et nettsted kan be om at innholdet ikke skrapes av webcrawlere ved hjelp av en fil som kalles "robots.txt".

Denne ekskluderingsprotokollen kommuniserer med webcrawlere og andre automatiserte roboter. Det er en enkel tekstfil som plasseres på serveren til et nettsted, og som angir hvilke sider eller deler av nettstedet som ikke skal åpnes eller skrapes.

Robots.txt-filen har vært en allment respektert konvensjon siden nettets spede begynnelse. Den hjelper nettstedseiere med å kontrollere innholdet og forhindre uautorisert datainnsamling.

Selv om det ikke er juridisk bindende, har det lenge vært ansett som beste praksis for webcrawlere å følge instruksjonene som er beskrevet i et nettsteds robots.txt-fil.

Jason Kint, administrerende direktør i Digitalt innhold Next, en bransjeorganisasjon som representerer nettutgivere, la ikke fingrene imellom i sin vurdering av Perplexitys prosesser for nettskraping. 

"Som standard bør AI-selskaper anta at de ikke har rett til å ta og gjenbruke utgiveres innhold uten tillatelse", sier han. 

"Hvis Perplexity omgår vilkårene for bruk eller robots.txt, bør de røde alarmene gå om at noe utilbørlig foregår."

Amazon undersøker

Disse avsløringene har fått Amazon Web Services (AWS), som er vert for en server som er involvert i Perplexitys påståtte upassende skraping, til å iverksette en etterforskning. 

AWS forbyr strengt kunder å delta i krenkende eller ulovlige aktiviteter som bryter med tjenestevilkårene.

Perplexitys administrerende direktør Aravind Srinivas avfeide først bekymringene og hevdet at de gjenspeilte "en dyp og grunnleggende misforståelse" av selskapets virksomhet og internett i sin alminnelighet. 

Men i en etterfølgende intervju med Fast Companyinnrømmet han at Perplexity var avhengig av en ikke navngitt tredjepartsleverandør for gjennomsøking og indeksering av nettet, noe som tyder på at de hadde skylden for eventuelle brudd på robots.txt. 

Srinivas avviste å identifisere selskapet med henvisning til en avtale om taushetsplikt.

Perplexity ser foreløpig ut til å være fast bestemt på å ri av stormen, og en talsperson bagatelliserer AWS-undersøkelsen som "standard prosedyre" og sier at selskapet ikke har gjort noen endringer i driften. 

Oppstartsbedriftens trassige holdning kan imidlertid vise seg å være uholdbar ettersom bekymringsbølgen over AIs datapraksis fortsetter å bygge seg opp.

Bli med i fremtiden


ABONNER I DAG

Tydelig, kortfattet og omfattende. Få et grep om AI-utviklingen med DagligAI

Sam Jeans

Sam er en vitenskaps- og teknologiskribent som har jobbet i ulike oppstartsbedrifter innen kunstig intelligens. Når han ikke skriver, leser han medisinske tidsskrifter eller graver seg gjennom esker med vinylplater.

×

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI

Meld deg på vårt ukentlige nyhetsbrev og få eksklusiv tilgang til DailyAIs nyeste e-bok: "Mastering AI Tools: Din 2024-guide til økt produktivitet".

*Ved å abonnere på vårt nyhetsbrev aksepterer du vår Retningslinjer for personvern og vår Vilkår og betingelser