A Perplexity AI encontra-se no centro de uma tempestade de fogo sobre as suas práticas de recolha de dados.
O Perplexity funde essencialmente um motor de busca com IA generativa, devolvendo conteúdo gerado por IA relacionado com a consulta de pesquisa do utilizador.
Os processos que permitem isto envolvem provavelmente a recolha de conteúdos de vários sítios Web, incluindo aqueles que o proíbem explicitamente.
O escândalo rebentou a 11 de junho quando Segundo a Forbes que a Perplexity tinha retirado um artigo inteiro do seu sítio, completo com ilustrações personalizadas, e tinha-o reutilizado com uma atribuição mínima.
Pouco tempo depois, a WIRED efectuou um inquérito que revelou provas de que a Perplexity recolhia conteúdos de sítios Web que proíbem a recolha automática de dados.
Um sítio Web pode solicitar que o seu conteúdo não seja recolhido por crawlers da Web através de um ficheiro denominado "robots.txt".
Este protocolo de exclusão comunica com os Web crawlers e outros bots automatizados. Trata-se de um simples ficheiro de texto colocado no servidor de um sítio Web que especifica quais as páginas ou secções do sítio Web que não devem ser acedidas ou raspadas.
O ficheiro robots.txt tem sido uma convenção amplamente respeitada desde os primeiros dias da Web. Ajuda os proprietários de sítios Web a controlar o seu conteúdo e a evitar a recolha não autorizada de dados.
Embora não seja juridicamente vinculativo, há muito que se considera uma boa prática os rastreadores da Web seguirem as instruções descritas no ficheiro robots.txt de um sítio Web.
Jason Kint, Diretor Executivo da Conteúdo digital Próximoum grupo comercial que representa os editores em linha, não poupou palavras na sua avaliação dos processos de recolha de dados da Web da Perplexity.
"Por defeito, as empresas de IA devem partir do princípio de que não têm o direito de pegar e reutilizar o conteúdo dos editores sem autorização", afirmou.
"Se a Perplexity está a contornar os termos de serviço ou o robots.txt, os alarmes vermelhos deveriam estar a soar, indicando que algo de impróprio se está a passar."
A Amazon investiga
Estas revelações levaram a Amazon Web Services (AWS), que aloja um servidor implicado na alegada recolha de dados indevida da Perplexity, a lançar uma investigação.
A AWS proíbe estritamente os clientes de se envolverem em actividades abusivas ou ilegais que violem os seus termos de serviço.
O diretor executivo da Perplexity, Aravind Srinivas, começou por ignorar as preocupações, afirmando que estas reflectiam "um mal-entendido profundo e fundamental" sobre as operações da empresa e a Internet em geral.
No entanto, num entrevista à Fast CompanyNo entanto, o diretor-geral da Perplexity, Sr. Henderson, admitiu que a Perplexity dependia de um terceiro fornecedor não identificado para a localização e indexação da Web, o que sugere que este é responsável por quaisquer violações do robots.txt.
Srinivas recusou-se a identificar a empresa, invocando um acordo de não divulgação.
De momento, a Perplexity parece determinada a resistir à tempestade, com um porta-voz a desvalorizar a investigação da AWS como "procedimento normal" e a indicar que a empresa não alterou as suas operações.
No entanto, a posição desafiadora da startup pode revelar-se insustentável à medida que a onda de preocupação com as práticas de dados da IA continua a crescer.