Авторы подали в суд на компанию Anthropic за использование пиратских книг для обучения Клода

21 августа 2024 года

  • Три автора подали коллективный иск об авторских правах против Anthropic
  • Авторы утверждают, что Anthropic использовала их книги, защищенные авторским правом, и другие книги для обучения своих моделей Клода.
  • Книги были частью общедоступной базы данных, в которой ранее содержались пиратские книги.

В понедельник группа авторов подала коллективный иск против компании Anthropic в суд Калифорнии. Авторы утверждают, что Anthropic построила свой бизнес на "краже сотен тысяч книг, защищенных авторским правом".

Три автора, Андреа Бартц, Чарльз Грэбер и Кирк Уоллес Джонсон, утверждают, что их книги были частью набора данных, который Anthropic использовала для обучения своего семейства. Claude модели. В своем иске они утверждают, что Anthropic виновен в "загрузке и копировании сотен тысяч книг, защищенных авторским правом, взятых с пиратских и нелегальных сайтов".

Авторы поставили под сомнение утверждение Anthropic о том, что она является общественно-полезной компанией, заявив: "Не будет преувеличением сказать, что модель Anthropic направлена на извлечение прибыли за счет "стриптиза" человеческого самовыражения и изобретательности, стоящих за каждым из этих произведений".

Куча

Книги, о которых идет речь, являются частью спорного набора данных под названием Books3, который ранее был частью более крупного набора данных под названием The Pile. Общепринято, но не признано, что почти все крупные LLM обучали свои модели на The Pile.

The Pile - это около 825 Гб научных статей, книг, веб-сайтов, технической документации и многого другого. Один из архитекторов The Pile - независимый разработчик по имени Шон Прессер. Прессер создал набор данных Books3 в 2020 году и добавил его в The Pile.

Books3 содержит 196 640 книг в формате обычного текста, написанных такими известными авторами, как Стивен Кинг, а также авторами, подавшими этот иск. Предполагается, что в качестве источника для Books3 Прессер использовал Bibliotik, печально известный торрент-трекер, используемый сообществом книжных пиратов, состоящим только из приглашенных лиц.

Когда некоммерческая организация EleutherAI разместила The Pile и выложила ее в открытый доступ, она указала причины, по которым в нее были включены пиратские книги. EleutherAI заявила: "Мы включили Bibliotik, потому что книги бесценны для долгосрочных исследований контекстного моделирования и связного повествования".

В августе 2023 года Books3 был удален из "самой официальной" копии The Pile, но к тому времени его использовали практически все известные разработчики моделей ИИ.

В июле 2024 года Anthropic публично признала, что использовала The Pile для обучения своих моделей Клода. Хотя Anthropic еще не ответила на иск, она, скорее всего, прибегнет к той же защите "добросовестного использования", что и Anthropic. OpenAI и другие В случае аналогичных исков используются.

Реальный ущерб

Помимо проблемы с авторскими правами, судебный иск свидетельствует об искреннем страхе авторов перед тем, что искусственный интеллект отнимет у них источник дохода.

В иске утверждается, что "Anthropic, безвозмездно забирая авторские работы, лишила авторов доходов от продаж книг и лицензирования". Это может быть трудно доказать. Claude описывает книгу "Вор перьев" Кирка Уоллеса Джонсона, но отказывается воспроизвести хотя бы одну страницу.

Я подозреваю, что Клод лжет, когда отвечает: "Я извиняюсь, но у меня нет доступа к настоящему тексту "Вора перьев" или его первой странице", потому что далее он описывает, что происходит на первой странице. Если вы хотите прочитать книгу, вам придется купить ее или сходить в библиотеку.

Несмотря на это, авторы утверждают, что "Клод Антропик и другие подобные ему LLM серьезно угрожают средствам к существованию" авторов. Они утверждают, что писательская работа "начинает иссякать в результате того, что генеративные системы ИИ обучаются на произведениях этих авторов, причем изначально без компенсации".

В качестве доказательства этого в иске рассказывается, как человек по имени Тим Баучер менее чем за год "написал" 97 книг с помощью Claude и ChatGPT и продавал их по ценам от $1,99 до $5,99.

Иск требует суда присяжных и возмещения неустановленных убытков. Будет интересно посмотреть, оценят ли присяжные закон об авторском праве больше, чем полезность моделей ИИ, подобных Claude.

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Юджин ван дер Ватт

Юджин - выходец из электронной инженерии и обожает все, что связано с техникой. Когда он отдыхает от чтения новостей об искусственном интеллекте, вы можете найти его за столом для игры в снукер.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения