Эд Ньютон-Рекс, бывший вице-президент по аудио в Stability AI, объявил о запуске "Fairly Trained", некоммерческой организации, занимающейся сертификацией компаний, занимающихся разработкой генеративного ИИ, на предмет справедливого использования данных для обучения.
Инициатива направлена на то, чтобы разграничить компании, которые обучают свой ИИ на недобросовестно собранных данных, и те, которые придерживаются более этичного подхода, лицензируя или создавая собственные запатентованные данные.
Компания Newton-Rex заявила на сайте X: "Трудно понять, какие компании, занимающиеся разработкой генеративного ИИ, тренируются на отсканированных данных, а какие применяют более этичный подход, лицензируя их. Поэтому сегодня мы запускаем Fairly Trained, некоммерческую организацию, которая сертифицирует компании, занимающиеся разработкой генеративного ИИ, на предмет честного использования данных для обучения".
Сложно понять, какие компании, занимающиеся разработкой генеративного ИИ, тренируются на отсканированных данных, а какие применяют более этичный подход, выдавая лицензии. Поэтому сегодня мы запускаем Fairly Trained, некоммерческую организацию, которая сертифицирует компании, занимающиеся разработкой генеративного ИИ, на предмет честного использования данных для обучения.
Наша первая сертификация, названная...
- Эд Ньютон-Рекс (@ednewtonrex) 17 января 2024 года
Это происходит на фоне растущей критики беззастенчивого сбора данных для обучения моделей искусственного интеллекта - процесса, который привел в ярость правообладателей. Дебаты разгорелись еще раньше, в январе, когда список из 16 000 художников используемый для обучения и оптимизации Midjourney, был утечен.
За ними следуют такие компании, как Magic: The Gathering и Wacom, которые полагаются на творческий потенциал человека, подверглись яростному осуждению за использование изображений, созданных искусственным интеллектом, в социальных сетях. Тем временем в социальных сетях появились сообщения о замене работы ИИ, в том числе на Duolingo.
Midjourney и Stability AI, бывшая компания Ньютона-Рекса, в настоящее время заперты в иск об авторском праве которая должна быть рассмотрена в этом году. Это одна из многих жалоб, поданных против таких компаний, как OpenAI, Anthropic, Meta, Midjourney, Stability и других.
ИИ Stability AI подвергся тщательной проверке за использование в своих моделях миллионов изображений и аудиофайлов, защищенных авторским правом, что поднимает вопросы о границах "добросовестного использования", которые Newton-Rex намерен решить с помощью программы Fairly Trained.
Ньютон-Рекс уволился из Stability AI в прошлом году, заявив на сайте X: "Я отказался от роли руководителя группы аудио в Stability AI, потому что не согласен с мнением компании о том, что обучение генеративных моделей ИИ на произведениях, защищенных авторским правом, является "честным использованием"".
Я отказался от должности руководителя группы аудио в Stability AI, потому что не согласен с мнением компании о том, что обучение генеративных моделей ИИ на произведениях, защищенных авторским правом, является "честным использованием".
Прежде всего, я хочу сказать, что в Stability есть много людей, которые глубоко...
- Эд Ньютон-Рекс (@ednewtonrex) 15 ноября 2023 года
Несмотря на свой уход из Stability AI, Ньютон-Рекс выразил оптимизм по поводу достижения гармоничных отношений между генеративным ИИ и творческими индустриями, что теперь подчеркивает Fairly Trained.
Программа "Справедливо обученный
'Fairly Trained' представляет свой первый сертификат, 'Сертификация лицензированных моделей (L).'
Цель - выделить модели ИИ, которые используют обучающие данные этично, не допуская использования работ, защищенных авторским правом, без лицензии. Это относится к моделям ИИ в различных областях, таких как создание изображений и музыки.
Чтобы соответствовать критериям, учебные данные должны быть либо:
- По договорённости с правообладателями.
- Под соответствующей открытой лицензией.
- В глобальном общественном достоянии.
- Принадлежит разработчику модели.
Компании должны тщательно проверять статус прав на свои учебные данные, а также вести подробный учет используемых учебных данных. Заявка включает в себя подробное письменное изложение и процесс рассмотрения, завершающийся сертификацией и ежегодной переоценкой.
Хотя компания Newton-Rex признает, что эта первая сертификация не решает всех проблем, связанных с обучением генеративного ИИ, таких как спор о том, можно ли отказаться от обучения или нет, это шаг вперед.
На сегодняшний день программа получила положительную оценку. Доктор Яир Адато из BRIA AI высоко оценил его, заявляет в своем блогеМы с гордостью поддерживаем сертификацию Fairly Trained. Эта инициатива противостоит непрозрачности отрасли в сфере закупок данных, гарантируя соблюдение компаниями строгих этических стандартов".
Кристофер Хортон, вице-президент Universal, сказал: "Мы приветствуем запуск сертификации Fairly Trained, чтобы помочь компаниям и создателям идентифицировать ответственные инструменты генеративного ИИ, которые были обучены на материалах, полученных законным и этическим путем".
Компания Fairly Trained уже сертифицировала девять компаний, занимающихся разработкой генеративного ИИ для создания изображений, музыки и синтеза голоса, включая Beatoven.AI, Boomy, BRIA AI, Endel, LifeScore, Rightsify, Somms.ai, Soundful и Tuney.
Будет интересно посмотреть, какие компании примут участие в программе и насколько прозрачными они сделают свои данные. В идеале, общественность должна иметь возможность самостоятельно знакомиться с наборами данных (при условии, что они являются общественным достоянием или не являются собственностью или защищены иным образом).
Сертификация связана с некоторыми сложностями, поскольку данные должны находиться в "глобальном общественном достоянии", что может оказаться непростой задачей из-за различий в законах об авторском праве в разных юрисдикциях.
То, что считается общественным достоянием в одной стране, может не считаться таковым в другой. Например, литературное произведение может стать общественным достоянием в Соединенных Штатах через 70 лет после смерти автора, но в Европе на это же произведение может по-прежнему распространяться авторское право.
В любом случае, требование Fairly Trained о том, что данные должны быть "общедоступными во всем мире", подразумевает высокий стандарт.
Может ли этот год стать годом повышения ответственности компаний, занимающихся разработкой искусственного интеллекта, и более прозрачной практики работы с данными?