Элон Маск временно ограничил количество твитов, которые пользователи могут просматривать в течение дня. Это было названо "временной экстренной мерой".
В своем твите Маск сообщил, что теперь непроверенные аккаунты имеют ограничение на чтение 1 000 сообщений в день. Новые непроверенные аккаунты имеют ограничение в 500 сообщений, а аккаунты со статусом "проверенный" в настоящее время имеют ограничение на просмотр 10 000 сообщений в день.
Изначально Маск установил более жесткие ограничения, но через несколько часов после объявления пересмотрел их.
Для борьбы с экстремальными уровнями соскабливания данных и манипулирования системой мы ввели следующие временные ограничения:
- Верифицированные аккаунты могут читать не более 6000 сообщений в день
- Непроверенные аккаунты до 600 сообщений в день
- Новые непроверенные аккаунты до 300 в день- Элон Маск (@elonmusk) 1 июля 2023 года
Маск заявил что эти временные ограничения были введены в ответ на "экстремальный уровень соскабливания данных и манипулирования системой".
В пятницу он отметил: "Мы получали так много данных, что это ухудшало обслуживание обычных пользователей", после того как пользователи увидели экраны с просьбой войти в систему, чтобы увидеть содержимое Twitter.
Изначально Маск установил ограничения на чтение: 6000 сообщений в день для верифицированных аккаунтов, 600 - для неверифицированных и 300 - для новых неверифицированных аккаунтов. В последующем обновлении Маск заявил, что "несколько сотен организаций, а может быть, и больше, крайне агрессивно скребут данные Twitter".
Скраппинг данных - это извлечение информации из интернета.
Для построения сложных больших языковых моделей (LLM) компаниям, занимающимся разработкой искусственного интеллекта, требуются данные из реальных человеческих разговоров и wГде искать эти данные, как не в Интернете? Чтобы собрать такие данные, боты без устали ползают по сайтам вроде Twitter и извлекают текстовые данные.
Однако, несмотря на то, что эти данные находятся в открытом доступе, большая их часть не является общедоступной. Такие платформы, как Twitter и Reddit, хотят получать деньги за свои данные.
Кроме того, боты, занимающиеся сбором данных, создают нагрузку на серверы. Маск, который критически относится к искусственному интеллекту, сказал: "Довольно неприятно, когда приходится экстренно включать в работу большое количество серверов только для того, чтобы способствовать возмутительной оценке какого-нибудь ИИ-стартапа".
Аналогично, в апреле Стив Хаффман, генеральный директор Reddit, рассказал в интервью газете "Нью-Йорк Таймс"Корпус данных Reddit действительно ценен, но нам не нужно отдавать всю эту ценность бесплатно крупнейшим компаниям мира".
Twitter уже начал взимать плату с пользователей за доступ к своему интерфейсу программирования приложений (API), который часто используется сторонними приложениями и исследователями, включая компании, занимающиеся разработкой искусственного интеллекта.
Но чьи это данные?
На серверах, где размещаются такие сайты, как Reddit и Twitter, разворачивается цифровая партизанская война.
Скреперы данных интенсивно добывают информацию в Интернете для создания моделей искусственного интеллекта, даже если эти данные не предназначены для использования таким образом.
Reddit, Twitter и т. д. имеют полное право пресекать использование данных, но это нелегкая задача.
Скраппинг противоречит условиям обслуживания этих сайтов, но, вероятно, не является незаконным - хотя это зависит от того, для чего вы используете данные.
По сути, соскабливание данных - это форма вторжения в цифровой мир. Вы все равно находитесь на чьей-то территории, даже если не делаете ничего противозаконного.
Похоже, что Twitter разрабатывает новые методы борьбы с вымарыванием данных, что, безусловно, имеет смысл, учитывая общую критику Маском индустрии искусственного интеллекта и некоторых ее ключевых игроков.