Perplexity AI envolvida em controvérsia sobre alegados abusos na recolha de dados da Web

30 de junho de 2024

  • A startup de IA Perplexity AI está em maus lençóis por causa dos seus processos de recolha de dados
  • Isto inclui a regurgitação de trabalhos protegidos por direitos de autor de sítios de notícias sem atribuição
  • O parceiro da Perplexity, a Amazon, lançou agora uma investigação sobre a empresa
perplexidade

A Perplexity AI encontra-se no centro de uma tempestade de fogo sobre as suas práticas de recolha de dados. 

O Perplexity funde essencialmente um motor de busca com IA generativa, devolvendo conteúdo gerado por IA relacionado com a consulta de pesquisa do utilizador.  

Os processos que permitem isto envolvem provavelmente a recolha de conteúdos de vários sítios Web, incluindo aqueles que o proíbem explicitamente. 

O escândalo rebentou a 11 de junho quando Segundo a Forbes que a Perplexity tinha retirado um artigo inteiro do seu sítio, completo com ilustrações personalizadas, e tinha-o reutilizado com uma atribuição mínima. 

Pouco tempo depois, a WIRED efectuou um inquérito que revelou provas de que a Perplexity recolhia conteúdos de sítios Web que proíbem a recolha automática de dados. 

Um sítio Web pode solicitar que o seu conteúdo não seja recolhido por crawlers da Web através de um ficheiro denominado "robots.txt".

Este protocolo de exclusão comunica com os Web crawlers e outros bots automatizados. Trata-se de um simples ficheiro de texto colocado no servidor de um sítio Web que especifica quais as páginas ou secções do sítio Web que não devem ser acedidas ou raspadas.

O ficheiro robots.txt tem sido uma convenção amplamente respeitada desde os primeiros dias da Web. Ajuda os proprietários de sítios Web a controlar o seu conteúdo e a evitar a recolha não autorizada de dados.

Embora não seja juridicamente vinculativo, há muito que se considera uma boa prática os rastreadores da Web seguirem as instruções descritas no ficheiro robots.txt de um sítio Web.

Jason Kint, Diretor Executivo da Conteúdo digital Próximoum grupo comercial que representa os editores em linha, não poupou palavras na sua avaliação dos processos de recolha de dados da Web da Perplexity. 

"Por defeito, as empresas de IA devem partir do princípio de que não têm o direito de pegar e reutilizar o conteúdo dos editores sem autorização", afirmou. 

"Se a Perplexity está a contornar os termos de serviço ou o robots.txt, os alarmes vermelhos deveriam estar a soar, indicando que algo de impróprio se está a passar."

A Amazon investiga

Estas revelações levaram a Amazon Web Services (AWS), que aloja um servidor implicado na alegada recolha de dados indevida da Perplexity, a lançar uma investigação. 

A AWS proíbe estritamente os clientes de se envolverem em actividades abusivas ou ilegais que violem os seus termos de serviço.

O diretor executivo da Perplexity, Aravind Srinivas, começou por ignorar as preocupações, afirmando que estas reflectiam "um mal-entendido profundo e fundamental" sobre as operações da empresa e a Internet em geral. 

No entanto, num entrevista à Fast CompanyNo entanto, o diretor-geral da Perplexity, Sr. Henderson, admitiu que a Perplexity dependia de um terceiro fornecedor não identificado para a localização e indexação da Web, o que sugere que este é responsável por quaisquer violações do robots.txt. 

Srinivas recusou-se a identificar a empresa, invocando um acordo de não divulgação.

De momento, a Perplexity parece determinada a resistir à tempestade, com um porta-voz a desvalorizar a investigação da AWS como "procedimento normal" e a indicar que a empresa não alterou as suas operações. 

No entanto, a posição desafiadora da startup pode revelar-se insustentável à medida que a onda de preocupação com as práticas de dados da IA continua a crescer.

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Calças de ganga Sam

Sam é um escritor de ciência e tecnologia que trabalhou em várias startups de IA. Quando não está a escrever, pode ser encontrado a ler revistas médicas ou a vasculhar caixas de discos de vinil.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições