Perplexity AI, envuelta en una polémica por presuntos abusos de web scraping

30 de junio de 2024

  • Perplexity AI, una empresa de inteligencia artificial, en apuros por sus procesos de recopilación de datos
  • Esto incluye regurgitar trabajos protegidos por derechos de autor de sitios de noticias sin atribución
  • El socio de Perplexity, Amazon, ha iniciado ahora una investigación sobre la empresa
perplejidad

Perplexity AI se ha encontrado en el centro de una tormenta de fuego por sus prácticas de recopilación de datos. 

En esencia, Perplexity fusiona un motor de búsqueda con IA generativa, devolviendo contenidos generados por IA relacionados con la consulta de búsqueda del usuario.  

Los procesos que permiten esto probablemente implican el raspado de contenidos de numerosos sitios web, incluidos aquellos que lo prohíben explícitamente. 

El escándalo estalló el 11 de junio cuando Según Forbes que Perplexity había sacado un artículo entero de su sitio, con ilustraciones personalizadas, y lo había reutilizado con una atribución mínima. 

Poco después, WIRED llevó a cabo una investigación que descubrió pruebas de que Perplexity extraía contenidos de sitios web que prohíben la recopilación automatizada de datos. 

Un sitio web puede solicitar que su contenido no sea raspado por rastreadores web a través de un archivo llamado "robots.txt".

Este protocolo de exclusión se comunica con los rastreadores web y otros robots automatizados. Se trata de un simple archivo de texto colocado en el servidor de un sitio web que especifica a qué páginas o secciones del sitio web no se debe acceder o raspar.

El archivo robots.txt ha sido una convención ampliamente respetada desde los primeros días de la web. Ayuda a los propietarios de sitios web a controlar su contenido y evitar la recopilación de datos no autorizada.

Aunque no es legalmente vinculante, desde hace tiempo se considera una buena práctica que los rastreadores web sigan las instrucciones indicadas en el archivo robots.txt de un sitio web.

Jason Kint, Director General de Contenidos digitales Siguienteun grupo comercial que representa a los editores en línea, no escatimó palabras en su evaluación de los procesos de raspado web de Perplexity. 

"Por defecto, las empresas de IA deben asumir que no tienen derecho a tomar y reutilizar los contenidos de los editores sin permiso", dijo. 

"Si Perplexity se está saltando los términos de servicio o robots.txt, deberían saltar las alarmas rojas de que algo indebido está pasando".

Amazon investiga

Estas revelaciones han llevado a Amazon Web Services (AWS), que aloja un servidor implicado en el presunto raspado indebido de Perplexity, a iniciar una investigación. 

AWS prohíbe estrictamente a los clientes realizar actividades abusivas o ilegales que infrinjan sus condiciones de servicio.

El Consejero Delegado de Perplexity, Aravind Srinivas, se desentendió inicialmente de las preocupaciones, afirmando que reflejaban "un profundo y fundamental malentendido" de las operaciones de la empresa y de Internet en general. 

Sin embargo, en una entrevista con Fast CompanySin embargo, admitió que Perplexity confiaba en un proveedor externo no identificado para el rastreo y la indexación de la web, lo que sugiere que son los culpables de cualquier infracción del archivo robots.txt. 

Srinivas no quiso identificar a la empresa, alegando un acuerdo de confidencialidad.

Por el momento, Perplexity parece decidida a capear el temporal, con un portavoz que resta importancia a la investigación de AWS calificándola de "procedimiento estándar" e indicando que la empresa no ha hecho cambios en sus operaciones. 

Sin embargo, la postura desafiante de la startup puede resultar insostenible a medida que aumenta la preocupación por las prácticas de AI en materia de datos.

Únete al futuro


SUSCRÍBETE HOY

Claro, conciso y completo. Conozca los avances de la IA con DailyAI

Sam Jeans

Sam es un escritor de ciencia y tecnología que ha trabajado en varias startups de IA. Cuando no está escribiendo, se le puede encontrar leyendo revistas médicas o rebuscando en cajas de discos de vinilo.

×

PDF GRATUITO EXCLUSIVO
Adelántese con DailyAI

Suscríbase a nuestro boletín semanal y reciba acceso exclusivo al último eBook de DailyAI: 'Mastering AI Tools: Su guía 2024 para mejorar la productividad'.

*Al suscribirse a nuestro boletín de noticias, acepta nuestra política de privacidad. Política de privacidad y nuestro Condiciones generales