Еще больше авторов пытаются подать в суд на OpenAI за использование материалов, защищенных авторским правом

10 июля 2023 года

chatgpt Юридическое дело

Иски против ИИ поступают все быстрее и быстрее: американская комедиантка и писательница Сара Сильверман, а также авторы Кристофер Голден и Ричард Кадри подают иски против OpenAI и Meta.

Трио заявляет о нарушении авторских прав, утверждая, что их работа была незаконно использована для обучения ChatGPT и LLaMA, открытой модели большого языка (LLM) компании Meta. 

ChatGPT опирается на анализ огромного количества данных, полученных из Интернета, - именно эти данные учат его работать с естественным языком. Многие вопросы связаны с происхождением этих обучающих данных и методами, используемыми для их получения, и подозрения усиливаются, когда создатели обнаруживают, что их работы, возможно, содержатся в этих обучающих данных. 

В последнем иске OpenAI и Meta обвиняются в использовании книг истцов, защищенных авторским правом, в качестве обучающих данных без их согласия. 

Судя по искам, материалы были получены с сайтов "теневых библиотек". Теневые библиотеки содержат большое количество незаконно скопированной информации, включая такие сайты, как Bibliotik, Library Genesis и Z-Library. Теневые библиотеки похожи на торренты - их трудно предотвратить и контролировать. 

OpenAI обвиняется в том, что при запросе она безошибочно составила краткое содержание 3 книг: "Постельничий" Сильвермана, "Арарат" Голдена и "Сэндмен Слим" Кэдри. Хотя ИИ мог узнать о таких книгах из аннотаций в Википедии и других подобных источниках, это не объясняет уровень детализации, содержащийся в аннотациях. 

В иске против Meta названы несколько работ Кэдри и Голден, а также "The Bedwetter", отсылающая к статье Meta, указывающей на использование материалов из теневых библиотек, что в иске обозначено как "вопиюще незаконное". 

Газета Мета говорит: "Мы включили в наш обучающий набор данных две книжные корпорации: проект Гутенберга, который содержит книги, являющиеся общественным достоянием, и раздел Books3 в ThePile (Gao et al., 2020), общедоступный набор данных для обучения больших языковых моделей". 

Джозеф Савери и Мэтью Баттерик, юристы, представляющие интересы трио, сообщили о растущей обеспокоенности по поводу тревожной способности ChatGPT имитировать текст, защищенный авторским правом.

Исследование показал, что GPT-4 почти наверняка учился на работах, защищенных авторским правом.

Однако это может быть связано с тем, что они популярны и широко распространены, а также встречаются в школьных и университетских курсах. 

В любом случае, это не освобождает компании, занимающиеся разработкой искусственного интеллекта, от необходимости использовать такие тексты в своих обучающих данных.

Количество судебных исков, связанных с искусственным интеллектом, растет

ИИ стал центром целого шквала судебных исков, многие из которых считаются первыми в своем роде. 

Эти же адвокаты представляют интересы американских авторов Моны Авад и Пола Тремблэя в деле отдельный, но практически идентичный коллективный иск против OpenAI. 

И опять же, та же команда юристов, Савери и Баттерик. представляя 3 художников - Сара Андерсен, Келли МакКернан и Карла Ортис - в иске против имидж-генераторов Stability AI и Midjourney. 

Эта же юридическая фирма представляла интересы дело против Microsft и GitHubутверждая, что их инструмент искусственного интеллекта Copilot AI tool наживался на работе программистов с открытым исходным кодом. Это очень похожее дело - истцы утверждают, что инструмент искусственного интеллекта обучается на информации, содержащей "открытые источники" данных, которые добываются незаконным путем. 

В данном случае, утверждают ответчики, "Раздел 1202(b) американского Закона об авторском праве в цифровую эпоху "касается идентичных "копий... произведения" - а не отрывочных фрагментов и адаптаций". Компании, занимающиеся разработкой искусственного интеллекта, могут приводить аналогичные аргументы против авторов, утверждая, что краткое изложение их произведений недостаточно для того, чтобы поддержать их доводы о том, что книги присутствуют в обучающих данных в полном объеме.

Так или иначе, обвинения накапливаются, что свидетельствует о тенденции усиления юридического давления на компании, занимающиеся разработкой искусственного интеллекта.

Правила искусственного интеллекта, такие как Закон ЕС об искусственном интеллекте собираются потребовать от компаний раскрывать информацию о защищенных авторским правом данных, содержащихся в их учебных материалах. Будет ли это иметь желаемый эффект, пока неизвестно. 

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Сэм Джинс

Сэм - писатель в области науки и техники, работавший в различных AI-стартапах. Когда он не пишет, его можно найти за чтением медицинских журналов или копанием в коробках с виниловыми пластинками.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения