Perplexity AI se ha encontrado en el centro de una tormenta de fuego por sus prácticas de recopilación de datos.
En esencia, Perplexity fusiona un motor de búsqueda con IA generativa, devolviendo contenidos generados por IA relacionados con la consulta de búsqueda del usuario.
Los procesos que permiten esto probablemente implican el raspado de contenidos de numerosos sitios web, incluidos aquellos que lo prohíben explícitamente.
El escándalo estalló el 11 de junio cuando Según Forbes que Perplexity había sacado un artículo entero de su sitio, con ilustraciones personalizadas, y lo había reutilizado con una atribución mínima.
Poco después, WIRED llevó a cabo una investigación que descubrió pruebas de que Perplexity extraía contenidos de sitios web que prohíben la recopilación automatizada de datos.
Un sitio web puede solicitar que su contenido no sea raspado por rastreadores web a través de un archivo llamado "robots.txt".
Este protocolo de exclusión se comunica con los rastreadores web y otros robots automatizados. Se trata de un simple archivo de texto colocado en el servidor de un sitio web que especifica a qué páginas o secciones del sitio web no se debe acceder o raspar.
El archivo robots.txt ha sido una convención ampliamente respetada desde los primeros días de la web. Ayuda a los propietarios de sitios web a controlar su contenido y evitar la recopilación de datos no autorizada.
Aunque no es legalmente vinculante, desde hace tiempo se considera una buena práctica que los rastreadores web sigan las instrucciones indicadas en el archivo robots.txt de un sitio web.
Jason Kint, Director General de Contenidos digitales Siguienteun grupo comercial que representa a los editores en línea, no escatimó palabras en su evaluación de los procesos de raspado web de Perplexity.
"Por defecto, las empresas de IA deben asumir que no tienen derecho a tomar y reutilizar los contenidos de los editores sin permiso", dijo.
"Si Perplexity se está saltando los términos de servicio o robots.txt, deberían saltar las alarmas rojas de que algo indebido está pasando".
Amazon investiga
Estas revelaciones han llevado a Amazon Web Services (AWS), que aloja un servidor implicado en el presunto raspado indebido de Perplexity, a iniciar una investigación.
AWS prohíbe estrictamente a los clientes realizar actividades abusivas o ilegales que infrinjan sus condiciones de servicio.
El Consejero Delegado de Perplexity, Aravind Srinivas, se desentendió inicialmente de las preocupaciones, afirmando que reflejaban "un profundo y fundamental malentendido" de las operaciones de la empresa y de Internet en general.
Sin embargo, en una entrevista con Fast CompanySin embargo, admitió que Perplexity confiaba en un proveedor externo no identificado para el rastreo y la indexación de la web, lo que sugiere que son los culpables de cualquier infracción del archivo robots.txt.
Srinivas no quiso identificar a la empresa, alegando un acuerdo de confidencialidad.
Por el momento, Perplexity parece decidida a capear el temporal, con un portavoz que resta importancia a la investigación de AWS calificándola de "procedimiento estándar" e indicando que la empresa no ha hecho cambios en sus operaciones.
Sin embargo, la postura desafiante de la startup puede resultar insostenible a medida que aumenta la preocupación por las prácticas de AI en materia de datos.