Компания Perplexity AI оказалась в центре бури, связанной с ее практикой сбора данных.
Perplexity, по сути, объединяет поисковую систему с генеративным искусственным интеллектом, возвращая сгенерированный искусственным интеллектом контент, связанный с поисковым запросом пользователя.
Процессы, позволяющие это сделать, скорее всего, включают в себя соскабливание контента с множества сайтов, в том числе и тех, где это прямо запрещено.
Скандал разразился 11 июня, когда Forbes сообщает что Perplexity взяла целую статью с сайта компании, снабдив ее иллюстрациями, и перепечатала ее с минимальным указанием авторства.
Вскоре после этого WIRED провела расследование в котором были обнаружены доказательства того, что Perplexity занималась соскабливанием контента с сайтов, на которых запрещен автоматизированный сбор данных.
Веб-сайт может запросить, чтобы его содержимое не соскабливалось веб-гусеницами, с помощью файла под названием "robots.txt".
Этот протокол исключения взаимодействует с веб-краулерами и другими автоматическими ботами. Он представляет собой простой текстовый файл, размещенный на сервере сайта, в котором указывается, какие страницы или разделы сайта не должны быть доступны или соскоблены.
Файл robots.txt стал общепринятой конвенцией с первых дней существования Интернета. Он помогает владельцам сайтов контролировать их содержимое и предотвращать несанкционированный сбор данных.
Хотя это и не является обязательным с юридической точки зрения, уже давно считается, что веб-краулеры должны следовать инструкциям, изложенным в файле robots.txt сайта.
Джейсон Кинт, генеральный директор компании Цифровой контент Далееторговая группа, представляющая интересы интернет-издателей, не жалеет слов в своей оценке процессов веб-скреппинга Perplexity.
"По умолчанию компании, занимающиеся разработкой ИИ, должны считать, что они не имеют права брать и повторно использовать контент издателей без разрешения", - сказал он.
"Если Perplexity обходит условия предоставления услуг или robots.txt, должны сработать красные сигналы тревоги о том, что происходит что-то неладное".
Amazon проводит расследование
Эти разоблачения заставили компанию Amazon Web Services (AWS), на сервере которой располагается сервер, замешанный в предполагаемом неправомерном скраппинге Perplexity, начать расследование.
AWS строго запрещает клиентам заниматься оскорбительной или незаконной деятельностью, нарушающей условия предоставления услуг.
Генеральный директор Perplexity Аравинд Шринивас сначала отмахнулся от опасений, утверждая, что они отражают "глубокое и фундаментальное непонимание" деятельности компании и интернета в целом.
Однако в последующем интервью Fast CompanyНо он признал, что Perplexity полагается на неназванного стороннего поставщика для сбора и индексирования веб-страниц, предполагая, что именно он виноват в нарушениях robots.txt.
Шринивас отказался назвать компанию, сославшись на соглашение о неразглашении.
На данный момент Perplexity, похоже, намерена переждать бурю. Представитель компании преуменьшил значение проверки AWS как "стандартной процедуры" и сообщил, что компания не внесла никаких изменений в свою деятельность.
Однако по мере того, как будет нарастать волна беспокойства по поводу практики использования данных искусственным интеллектом, эта вызывающая позиция стартапа может оказаться несостоятельной.