Иски против ИИ поступают все быстрее и быстрее: американская комедиантка и писательница Сара Сильверман, а также авторы Кристофер Голден и Ричард Кадри подают иски против OpenAI и Meta.
Трио заявляет о нарушении авторских прав, утверждая, что их работа была незаконно использована для обучения ChatGPT и LLaMA, открытой модели большого языка (LLM) компании Meta.
ChatGPT опирается на анализ огромного количества данных, полученных из Интернета, - именно эти данные учат его работать с естественным языком. Многие вопросы связаны с происхождением этих обучающих данных и методами, используемыми для их получения, и подозрения усиливаются, когда создатели обнаруживают, что их работы, возможно, содержатся в этих обучающих данных.
В последнем иске OpenAI и Meta обвиняются в использовании книг истцов, защищенных авторским правом, в качестве обучающих данных без их согласия.
Судя по искам, материалы были получены с сайтов "теневых библиотек". Теневые библиотеки содержат большое количество незаконно скопированной информации, включая такие сайты, как Bibliotik, Library Genesis и Z-Library. Теневые библиотеки похожи на торренты - их трудно предотвратить и контролировать.
OpenAI обвиняется в том, что при запросе она безошибочно составила краткое содержание 3 книг: "Постельничий" Сильвермана, "Арарат" Голдена и "Сэндмен Слим" Кэдри. Хотя ИИ мог узнать о таких книгах из аннотаций в Википедии и других подобных источниках, это не объясняет уровень детализации, содержащийся в аннотациях.
В иске против Meta названы несколько работ Кэдри и Голден, а также "The Bedwetter", отсылающая к статье Meta, указывающей на использование материалов из теневых библиотек, что в иске обозначено как "вопиюще незаконное".
Газета Мета говорит: "Мы включили в наш обучающий набор данных две книжные корпорации: проект Гутенберга, который содержит книги, являющиеся общественным достоянием, и раздел Books3 в ThePile (Gao et al., 2020), общедоступный набор данных для обучения больших языковых моделей".
Джозеф Савери и Мэтью Баттерик, юристы, представляющие интересы трио, сообщили о растущей обеспокоенности по поводу тревожной способности ChatGPT имитировать текст, защищенный авторским правом.
Исследование показал, что GPT-4 почти наверняка учился на работах, защищенных авторским правом.
Однако это может быть связано с тем, что они популярны и широко распространены, а также встречаются в школьных и университетских курсах.
В любом случае, это не освобождает компании, занимающиеся разработкой искусственного интеллекта, от необходимости использовать такие тексты в своих обучающих данных.
Количество судебных исков, связанных с искусственным интеллектом, растет
ИИ стал центром целого шквала судебных исков, многие из которых считаются первыми в своем роде.
Эти же адвокаты представляют интересы американских авторов Моны Авад и Пола Тремблэя в деле отдельный, но практически идентичный коллективный иск против OpenAI.
И опять же, та же команда юристов, Савери и Баттерик. представляя 3 художников - Сара Андерсен, Келли МакКернан и Карла Ортис - в иске против имидж-генераторов Stability AI и Midjourney.
Эта же юридическая фирма представляла интересы дело против Microsft и GitHubутверждая, что их инструмент искусственного интеллекта Copilot AI tool наживался на работе программистов с открытым исходным кодом. Это очень похожее дело - истцы утверждают, что инструмент искусственного интеллекта обучается на информации, содержащей "открытые источники" данных, которые добываются незаконным путем.
В данном случае, утверждают ответчики, "Раздел 1202(b) американского Закона об авторском праве в цифровую эпоху "касается идентичных "копий... произведения" - а не отрывочных фрагментов и адаптаций". Компании, занимающиеся разработкой искусственного интеллекта, могут приводить аналогичные аргументы против авторов, утверждая, что краткое изложение их произведений недостаточно для того, чтобы поддержать их доводы о том, что книги присутствуют в обучающих данных в полном объеме.
Так или иначе, обвинения накапливаются, что свидетельствует о тенденции усиления юридического давления на компании, занимающиеся разработкой искусственного интеллекта.
Правила искусственного интеллекта, такие как Закон ЕС об искусственном интеллекте собираются потребовать от компаний раскрывать информацию о защищенных авторским правом данных, содержащихся в их учебных материалах. Будет ли это иметь желаемый эффект, пока неизвестно.