Исследование, проведенное Институтом Рейтер по изучению журналистики при Оксфордском университете, показало, что все больше новостных сайтов по всему миру блокируют веб-краулеры искусственного интеллекта.
Сайт исследованиеАвтор исследования доктор Ричард Флетчер, директор по исследованиям Института изучения журналистики Reuters, обнаружил, что почти половина (48%) самых популярных новостных сайтов в мире теперь недоступны для краулеров OpenAI, а краулеры ИИ Google заблокированы на 24% сайтах.
Новый @risj_oxford В подготовленном мной информационном бюллетене задается вопрос: Сколько новостных сайтов блокируют генеративный ИИ, такой как ChatGPT и Gemini, от использования их контента для обучения своих моделей?
Это зависит от страны. Очень большая разница в том, сколько ведущих новостных сайтов блокируется и как скоро они начали это делать. pic.twitter.com/CaebVc4gfZ
- Ричард Флетчер (@richrdfletcher) 22 февраля 2024 года
ИИ-краулеры предназначены для прочесывания интернета с целью сбора данных для таких моделей ИИ, как ChatGPT и Gemini. Это обеспечивает постоянное поступление актуальной информации, что очень важно для поддержания точности и актуальности ответов ИИ.
Без свежих данных модели ИИ окажутся запертыми во времени и не смогут адаптироваться к изменениям в реальном мире. Если в процессе работы над модельюмодели потребляют слишком много низкокачественных, синтетических и созданных искусственным интеллектом данных, а не новых, высококачественных, созданных человеком, они может даже грозить крах модели.
Почему же новостные сайты блокируют веб-краулеры ИИ? В первую очередь их волнуют вопросы авторского права и справедливой компенсации, опасения распространения дезинформации и потенциальная потеря прямого трафика на новостные сайты.
Сайт New York Times подает в суд на OpenAI и Microsoft за нарушение авторских прав, присоединившись к целому ряду авторов, художников и компаний, которые утверждают, что разработчики ИИ использовали их данные незаконно.
Компании, занимающиеся разработкой искусственного интеллекта, понимают эту проблему. Именно поэтому они заключают лицензионные соглашения с такими медиакомпаниями, как В прошлом году OpenAI заключила сделку с Axel Springer..
Контентный гигант Reddit - последний Компания соблазняет ИИ-компании многомиллионными сделками по лицензированию контента.
Ключевые моменты
Вот несколько ключевых моментов из отчета:
- На конец 2023 года, 48% известные международные новостные платформы ограничили доступ к краулерам OpenAI, а меньшее количество 24% то же самое можно сделать и для гусеничного ИИ Google.
- Примечательно, 97% Сайты, блокирующие ИИ Google, также блокировали краулеры OpenAI.
- Вероятность того, что веб-сайты блокируют краулеры ИИ, существенно различалась в зависимости от страны, причем самые высокие показатели наблюдались в США (79%) и самые низкие в Мексике и Польше (20%).
- В течение 2023 года не было зафиксировано ни одного случая, когда сайты отменили бы свое решение о блокировке краулеров ИИ.
- Крупные новостные издания демонстрировали несколько большую склонность к блокировке ИИ-краулеров, чем мелкие.
- Тенденция к блокировке варьируется в разных типах новостных организаций. Старые печатные издания (57%) лидируют по количеству блокировок по сравнению с изданиями, рожденными в цифровом формате (31%)
Новостные компании, очевидно, укрепляют свою оборону против веб-краулеров с ИИ, а компаниям, занимающимся ИИ, вероятно, придется искать выход, чтобы убедительно обновлять свои модели.
Альтернатива ужасна. Производительность моделей ИИ будет повышаться, но знания будут медленно устаревать, вплоть до неудовлетворительного уровня галлюцинаций, неточности, избыточности и неактуальности.