Крупные новостные сайты все чаще блокируют веб-краулеры искусственного интеллекта, говорится в исследовании

25 февраля 2024 года

Веб-краулер с искусственным интеллектом

Исследование, проведенное Институтом Рейтер по изучению журналистики при Оксфордском университете, показало, что все больше новостных сайтов по всему миру блокируют веб-краулеры искусственного интеллекта.

Сайт исследованиеАвтор исследования доктор Ричард Флетчер, директор по исследованиям Института изучения журналистики Reuters, обнаружил, что почти половина (48%) самых популярных новостных сайтов в мире теперь недоступны для краулеров OpenAI, а краулеры ИИ Google заблокированы на 24% сайтах.


ИИ-краулеры предназначены для прочесывания интернета с целью сбора данных для таких моделей ИИ, как ChatGPT и Gemini. Это обеспечивает постоянное поступление актуальной информации, что очень важно для поддержания точности и актуальности ответов ИИ.

Без свежих данных модели ИИ окажутся запертыми во времени и не смогут адаптироваться к изменениям в реальном мире. Если в процессе работы над модельюмодели потребляют слишком много низкокачественных, синтетических и созданных искусственным интеллектом данных, а не новых, высококачественных, созданных человеком, они может даже грозить крах модели

Почему же новостные сайты блокируют веб-краулеры ИИ? В первую очередь их волнуют вопросы авторского права и справедливой компенсации, опасения распространения дезинформации и потенциальная потеря прямого трафика на новостные сайты. 

Сайт New York Times подает в суд на OpenAI и Microsoft за нарушение авторских прав, присоединившись к целому ряду авторов, художников и компаний, которые утверждают, что разработчики ИИ использовали их данные незаконно.

Компании, занимающиеся разработкой искусственного интеллекта, понимают эту проблему. Именно поэтому они заключают лицензионные соглашения с такими медиакомпаниями, как В прошлом году OpenAI заключила сделку с Axel Springer..

Контентный гигант Reddit - последний Компания соблазняет ИИ-компании многомиллионными сделками по лицензированию контента. 

Ключевые моменты

Вот несколько ключевых моментов из отчета:

  • На конец 2023 года, 48% известные международные новостные платформы ограничили доступ к краулерам OpenAI, а меньшее количество 24% то же самое можно сделать и для гусеничного ИИ Google.
  • Примечательно, 97% Сайты, блокирующие ИИ Google, также блокировали краулеры OpenAI.
  • Вероятность того, что веб-сайты блокируют краулеры ИИ, существенно различалась в зависимости от страны, причем самые высокие показатели наблюдались в США (79%) и самые низкие в Мексике и Польше (20%).
  • В течение 2023 года не было зафиксировано ни одного случая, когда сайты отменили бы свое решение о блокировке краулеров ИИ.
  • Крупные новостные издания демонстрировали несколько большую склонность к блокировке ИИ-краулеров, чем мелкие.
  • Тенденция к блокировке варьируется в разных типах новостных организаций. Старые печатные издания (57%) лидируют по количеству блокировок по сравнению с изданиями, рожденными в цифровом формате (31%)

Новостные компании, очевидно, укрепляют свою оборону против веб-краулеров с ИИ, а компаниям, занимающимся ИИ, вероятно, придется искать выход, чтобы убедительно обновлять свои модели. 

Альтернатива ужасна. Производительность моделей ИИ будет повышаться, но знания будут медленно устаревать, вплоть до неудовлетворительного уровня галлюцинаций, неточности, избыточности и неактуальности.

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Сэм Джинс

Сэм - писатель в области науки и техники, работавший в различных AI-стартапах. Когда он не пишет, его можно найти за чтением медицинских журналов или копанием в коробках с виниловыми пластинками.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения