L'IA Perplexity au cœur d'une controverse sur des allégations d'utilisation abusive du web scraping

30 juin 2024

  • La startup Perplexity AI est dans l'eau chaude à cause de ses processus de collecte de données
  • Cela inclut la régurgitation de travaux protégés par le droit d'auteur provenant de sites d'information sans attribution.
  • Le partenaire de Perplexity, Amazon, a maintenant lancé une enquête sur la société
perplexité

Perplexity AI s'est retrouvée au centre d'une tempête de feu à propos de ses pratiques en matière de collecte de données. 

Perplexity fusionne essentiellement un moteur de recherche avec l'IA générative, renvoyant un contenu généré par l'IA en rapport avec la requête de l'utilisateur.  

Les processus permettant cela impliquent probablement de récupérer du contenu sur de nombreux sites web, y compris ceux qui l'interdisent explicitement. 

Le scandale a éclaté le 11 juin lorsque Forbes a rapporté que Perplexity avait repris un article entier de son site, avec des illustrations personnalisées, et l'avait réédité avec un minimum d'attribution. 

Peu de temps après, WIRED a mené une enquête qui a révélé que Perplexity récupérait du contenu sur des sites web qui interdisent la collecte automatisée de données. 

Un site web peut demander à ce que son contenu ne soit pas scrappé par des robots d'indexation au moyen d'un fichier appelé "robots.txt".

Ce protocole d'exclusion communique avec les robots d'indexation et autres robots automatisés. Il s'agit d'un simple fichier texte placé sur le serveur d'un site web qui spécifie les pages ou les sections du site qui ne doivent pas être consultées ou scannées.

Le fichier robots.txt est une convention largement respectée depuis les débuts du web. Il aide les propriétaires de sites web à contrôler leur contenu et à empêcher la collecte de données non autorisées.

Bien qu'elle ne soit pas juridiquement contraignante, on considère depuis longtemps que les robots d'indexation doivent suivre les instructions figurant dans le fichier robots.txt d'un site web.

Jason Kint, directeur général de Contenu numérique Suivantun groupe professionnel représentant les éditeurs en ligne, n'a pas mâché ses mots dans son évaluation des procédés de "web scraping" de Perplexity. 

"Par défaut, les entreprises d'IA devraient considérer qu'elles n'ont pas le droit de prendre et de réutiliser le contenu des éditeurs sans autorisation", a-t-il déclaré. 

"Si Perplexity contourne les conditions d'utilisation ou le fichier robots.txt, les alarmes rouges devraient se déclencher et indiquer qu'il se passe quelque chose d'inapproprié.

Amazon enquête

Ces révélations ont incité Amazon Web Services (AWS), qui héberge un serveur impliqué dans les allégations de "scraping" abusif de Perplexity, à ouvrir une enquête. 

AWS interdit strictement aux clients de s'engager dans des activités abusives ou illégales qui violent ses conditions de service.

Le PDG de Perplexity, Aravind Srinivas, a d'abord balayé les inquiétudes, affirmant qu'elles reflétaient "une incompréhension profonde et fondamentale" des activités de l'entreprise et de l'internet en général. 

Toutefois, dans un interview avec Fast CompanyIl a admis que Perplexity s'appuyait sur un fournisseur tiers non nommé pour l'exploration et l'indexation des sites web, ce qui laisse entendre que ce fournisseur est responsable de toute violation du fichier robots.txt. 

M. Srinivas a refusé d'identifier l'entreprise, invoquant un accord de non-divulgation.

Pour l'instant, Perplexity semble déterminée à résister à la tempête, un porte-parole qualifiant l'enquête d'AWS de "procédure standard" et indiquant que l'entreprise n'a rien changé à ses activités. 

Toutefois, la position de défi de la startup pourrait s'avérer intenable à mesure que la vague d'inquiétude concernant les pratiques de l'IA en matière de données continue de s'amplifier.

Rejoindre l'avenir


SOUSCRIRE AUJOURD'HUI

Clair, concis, complet. Maîtrisez les développements de l'IA avec DailyAI

Sam Jeans

Sam est un rédacteur scientifique et technologique qui a travaillé dans diverses start-ups spécialisées dans l'IA. Lorsqu'il n'écrit pas, on peut le trouver en train de lire des revues médicales ou de fouiller dans des boîtes de disques vinyles.

×

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI

Inscrivez-vous à notre newsletter hebdomadaire et recevez un accès exclusif au dernier eBook de DailyAI : 'Mastering AI Tools : Your 2024 Guide to Enhanced Productivity" (Maîtriser les outils de l'IA : votre guide 2024 pour une meilleure productivité).

*En vous abonnant à notre lettre d'information, vous acceptez nos conditions d'utilisation. Politique de confidentialité et notre Conditions générales d'utilisation