ИИ Perplexity оказался втянут в полемику по поводу предполагаемого злоупотребления веб-скреппингом

30 июня 2024 года

  • ИИ-стартап Perplexity AI попал под горячую руку из-за своих процессов сбора данных
  • Это включает в себя копирование защищенных авторским правом работ с новостных сайтов без указания авторства
  • Партнер Perplexity, компания Amazon, начала расследование в отношении компании.
недоумение

Компания Perplexity AI оказалась в центре бури, связанной с ее практикой сбора данных. 

Perplexity, по сути, объединяет поисковую систему с генеративным искусственным интеллектом, возвращая сгенерированный искусственным интеллектом контент, связанный с поисковым запросом пользователя.  

Процессы, позволяющие это сделать, скорее всего, включают в себя соскабливание контента с множества сайтов, в том числе и тех, где это прямо запрещено. 

Скандал разразился 11 июня, когда Forbes сообщает что Perplexity взяла целую статью с сайта компании, снабдив ее иллюстрациями, и перепечатала ее с минимальным указанием авторства. 

Вскоре после этого WIRED провела расследование в котором были обнаружены доказательства того, что Perplexity занималась соскабливанием контента с сайтов, на которых запрещен автоматизированный сбор данных. 

Веб-сайт может запросить, чтобы его содержимое не соскабливалось веб-гусеницами, с помощью файла под названием "robots.txt".

Этот протокол исключения взаимодействует с веб-краулерами и другими автоматическими ботами. Он представляет собой простой текстовый файл, размещенный на сервере сайта, в котором указывается, какие страницы или разделы сайта не должны быть доступны или соскоблены.

Файл robots.txt стал общепринятой конвенцией с первых дней существования Интернета. Он помогает владельцам сайтов контролировать их содержимое и предотвращать несанкционированный сбор данных.

Хотя это и не является обязательным с юридической точки зрения, уже давно считается, что веб-краулеры должны следовать инструкциям, изложенным в файле robots.txt сайта.

Джейсон Кинт, генеральный директор компании Цифровой контент Далееторговая группа, представляющая интересы интернет-издателей, не жалеет слов в своей оценке процессов веб-скреппинга Perplexity. 

"По умолчанию компании, занимающиеся разработкой ИИ, должны считать, что они не имеют права брать и повторно использовать контент издателей без разрешения", - сказал он. 

"Если Perplexity обходит условия предоставления услуг или robots.txt, должны сработать красные сигналы тревоги о том, что происходит что-то неладное".

Amazon проводит расследование

Эти разоблачения заставили компанию Amazon Web Services (AWS), на сервере которой располагается сервер, замешанный в предполагаемом неправомерном скраппинге Perplexity, начать расследование. 

AWS строго запрещает клиентам заниматься оскорбительной или незаконной деятельностью, нарушающей условия предоставления услуг.

Генеральный директор Perplexity Аравинд Шринивас сначала отмахнулся от опасений, утверждая, что они отражают "глубокое и фундаментальное непонимание" деятельности компании и интернета в целом. 

Однако в последующем интервью Fast CompanyНо он признал, что Perplexity полагается на неназванного стороннего поставщика для сбора и индексирования веб-страниц, предполагая, что именно он виноват в нарушениях robots.txt. 

Шринивас отказался назвать компанию, сославшись на соглашение о неразглашении.

На данный момент Perplexity, похоже, намерена переждать бурю. Представитель компании преуменьшил значение проверки AWS как "стандартной процедуры" и сообщил, что компания не внесла никаких изменений в свою деятельность. 

Однако по мере того, как будет нарастать волна беспокойства по поводу практики использования данных искусственным интеллектом, эта вызывающая позиция стартапа может оказаться несостоятельной.

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Сэм Джинс

Сэм - писатель в области науки и техники, работавший в различных AI-стартапах. Когда он не пишет, его можно найти за чтением медицинских журналов или копанием в коробках с виниловыми пластинками.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения