16 000 имен исполнителей, которые, по спорным причинам, стали "стилями" Midjourney

5 января 2024 года

ИИ в середине пути

Более 16 000 имен художников были связаны с неконсенсуальным обучением моделей Midjourney, создающих изображения.

База данных артистов Midjourney прилагается к дополненному иску, поданному против Stability AI, DeviantArt и Midjourney, в рубрике Экспонат J, и в недавно просочившейся в открытый доступ электронной таблице Google, часть которой можно посмотреть в Интернет-архив здесь

Художник Джон Лам поделился на сайте X скриншотами из чата Midjourney Discord, в котором разработчики обсуждают использование имен и стилей исполнителей из Википедии и других источников.

Считается, что таблица изначально была получена от команды разработчиков Midjourney и Вслед за утечкой информации из Discord-чата разработчиков Midjourney, в котором говорится о том, что работы художника будут сопоставлены со "стилями".

Кодируя работы художников как "стили", Midjourney может эффективно воссоздавать работы в их стиле. 

Лэм пишет: "Разработчиков Midjourney поймали на обсуждении отмывания денег и создании базы данных артистов (которые были дегуманизированы до стиляг)".

Лам также поделился видео со списками артистов, включая тех, кто использовался для стиля Midjourney, и еще одним списком "предполагаемых артистов". Многие пользователи X заявили, что их имена были в этих списках. 

На одном из скриншотов показано заявление генерального директора Midjourney Дэвида Хольца (David Holz), в котором отмечается, что в программу обучения включено 16 000 художников. 

В другом случае разработчик Midjourney говорит о том, что вам нужно "отмыть его" через "Кодекс", хотя без контекста трудно сказать, относится ли это к работам художников.

Другие (не сотрудники Midjourney) в том же разговоре говорят о том, что обработка произведений искусства с помощью модели искусственного интеллекта по сути лишает их авторских прав.

Один из них говорит: "Все, что вам нужно сделать, это просто использовать эти вырезанные наборы данных, а затем забыть о том, что вы использовали для обучения модели. Бум, юридические проблемы решены навсегда".

Как развиваются судебные дела

В судебных делах, поданных против Midjourney, Stability AI, а также OpenAI, Meta и Google (но в отношении текстовых работ, а не изображений), художники, писатели и другие люди столкнулись с проблемой доказательства того, что их работы действительно "находятся внутри" модели дословно.

Это было бы тем самым "дымящимся пистолетом", который нужен для доказательства нарушения авторских прав.  

В эпоху ИИ авторское право в целом остается недостаточно определенным. Модели искусственного интеллекта обучаются на данных, которые должны быть откуда-то взяты, а что может быть лучшим источником для поиска этих данных, чем Интернет?

Разработчики "соскабливают" из Интернета так называемые "открытые", "открытые исходники" или "публичные" данные, но, опять же, эти понятия плохо определены. Можно сказать, что когда разработчики ИИ почуяли приближающуюся золотую лихорадку, они захватили как можно больше "открытых" данных из Интернета и использовали их для обучения своих моделей.

Юридические процессы медленны, а ИИ по сравнению с ними - световая скорость. Разработчикам было очень легко обойти закон об авторском праве и обучить модели задолго до того, как правообладатели и закон, регулирующий интеллектуальную собственность, успели отреагировать.

Процесс реакции уже запущен, но как процесс обучения ИИ, так и технические процессы, связанные с созданием результатов работы ИИ (например, текста или изображений) на основе пользовательских данных, ставят под сомнение природу законодательства об интеллектуальной собственности.

В частности, а) трудно доказать, что модели ИИ обязательно обучаются на авторских материалах, и б) трудно доказать, что их результаты в достаточной степени копируют авторские материалы.

Существует также вопрос ответственности. ИИ-компании, такие как OpenAI и Midjourney, по крайней мере частично использовали данные, собранные другими, а не собирали их сами. Так не будут ли ответственны за нарушение авторских прав те, кто собирал данные?

В контексте недавней ситуации с Midjourney, модели Midjourney, как и другие, всегда будут воспроизводить смесь работ, содержащихся в их данных. Художники не могут легко доказать, какие произведения они использовали. 

Например, когда недавно рассматривалось дело об авторских правах против Midjourney, Stability AI и DeviantArt был уволен (с тех пор был представлен повторно с новыми истцами), федеральный судья Оррик выявил несколько недостатков в формулировке претензий, в частности, в понимании того, как функционируют генераторы изображений ИИ. 

В первоначальном иске утверждалось, что Stability AI, обучая свою модель Stable Diffusion, хранила сжатые копии изображений. 

Компания Stability AI опровергла это утверждение, пояснив, что процесс обучения включает в себя извлечение таких атрибутов, как линии, оттенки и цвета, и разработку параметров на их основе, а не хранение копий изображений.

Решение Оррика подчеркнуло необходимость для истцов внести изменения в свои иски, чтобы более точно представить работу этих моделей искусственного интеллекта. 

Это включает в себя необходимость более четкого объяснения того, были ли претензии к Midjourney связаны с использованием Stable Diffusion, независимым использованием обучающих изображений или и тем, и другим (поскольку Midjourney также обвиняется в использовании моделей Stability AI, которые якобы используют произведения, защищенные авторским правом). 

Еще одна проблема для истцов - доказать, что выходные изображения Midjourney в значительной степени похожи на оригинальные произведения искусства. Оррик отметил, что сами истцы признали, что выходные изображения Stable Diffusion вряд ли будут точно соответствовать какому-либо конкретному изображению в обучающих данных. 

На данный момент, Дело живоеСуд отклонил последние попытки AI-компаний отклонить иски художников. 

Использование набора данных LAION

В судебных исках, поданных против Midjourney и co., также подчеркивается потенциальное использование ими набора данных LAION-5B - компиляции из 5,85 миллиарда изображений, размещенных в Интернете, включая контент, защищенный авторским правом. 

Стэнфорд недавно обвинил LAION за содержание запрещенных сексуальных изображений, включая сексуальное насилие над детьми, а также различного сексистского, расистского и другого непристойного контента - все это теперь "живет" в моделях искусственного интеллекта, от которых общество начинает зависеть в творческих и профессиональных целях. 

Долгосрочные последствия этого являются предметом горячих споров, но тот факт, что эти ИИ, возможно, обучаются, во-первых, на ворованной работе, а во-вторых, на нелегальном контенте, не проливает положительного света на развитие ИИ в целом. 

Комментарии разработчиков Midjourney вызвали широкий резонанс в социальных сетях и на форуме Y Combinator.

Вполне вероятно, что в 2024 году разгорятся еще более жаркие юридические споры, и глава "Дикий Запад" в развитии ИИ может подойти к концу.

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Сэм Джинс

Сэм - писатель в области науки и техники, работавший в различных AI-стартапах. Когда он не пишет, его можно найти за чтением медицинских журналов или копанием в коробках с виниловыми пластинками.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения