Внутри борьбы Больших Технологий за данные для обучения ИИ

8 апреля 2024 года

  • Такие технологические гиганты, как Google, Meta и OpenAI, стремятся защитить больше данных.
  • В результате они используют все более сомнительные с этической и юридической точек зрения тактики.
  • OpenAI могла использовать транскрипты YouTube для обучения GPT-4, например
Данные

В бешеной погоне за данными для обучения ИИ технологические гиганты OpenAI, Google и Meta, как сообщается, обходят корпоративную политику, изменяют правила и обсуждают обход закона об авторском праве. 

A Расследование New York Times рассказывает о том, на что пошли эти компании, собирая информацию в Интернете, чтобы накормить свои жаждущие данных системы искусственного интеллекта.

В конце 2021 года исследователи OpenAI разработали инструмент распознавания речи под названием Whisper для расшифровки видеороликов на YouTube в условиях нехватки достоверных англоязычных текстовых данных. 

Несмотря на внутренние дискуссии о потенциальном нарушении правил YouTube, которые запрещают использовать его видео для "независимых" приложений, 

NYT выяснила, что OpenAI в итоге расшифровала более миллиона часов контента YouTube. Грег Брокман, президент OpenAI, лично помогал собирать видео. Затем расшифрованный текст был передан в GPT-4.

Google также предположительно расшифровывает видеоролики на YouTube, чтобы собрать текст для своих моделей искусственного интеллекта, потенциально нарушая авторские права создателей видео.

Это произошло через несколько дней после того, как генеральный директор YouTube заявил, что такая деятельность нарушает условия обслуживания компании и подрывать творцов. 

В июне 2023 года юридический отдел Google потребовал внести изменения в политику конфиденциальности компании, разрешив использовать общедоступный контент из Google Docs и других приложений Google для более широкого спектра продуктов искусственного интеллекта. 

Компания Meta, столкнувшаяся с нехваткой данных, рассматривает различные варианты получения дополнительных учебных данных. 

Руководители обсуждали оплату лицензионных прав на книги, покупку издательства Simon & Schuster и даже сбор материалов, защищенных авторским правом, из Интернета без разрешения, рискуя потенциальными судебными исками. 

Юристы Meta утверждали, что использование данных для обучения систем искусственного интеллекта должно подпадать под понятие "добросовестное использование", ссылаясь на решение суда 2015 года, касающееся проекта Google по сканированию книг.

Этические проблемы и будущее обучающих данных ИИ

Коллективные действия этих технологических компаний подчеркивают критическое значение онлайн-данных для бурно развивающейся индустрии искусственного интеллекта.

Такая практика вызывает озабоченность по поводу нарушения авторских прав и справедливого вознаграждения авторов. 

Режиссер и автор Джастин Бейтман (Justine Bateman) заявила в Бюро по авторским правам, что модели искусственного интеллекта забирают контент, в том числе ее произведения и фильмы, без разрешения и оплаты.

"Это самая крупная кража в Соединенных Штатах", - сказала она в интервью.

В изобразительном искусстве MidJourney и другие модели изображений были доказано, что генерирует авторские права Контент, например, сцены из фильмов Marvel. 

Поскольку некоторые эксперты прогнозируют, что высококачественные онлайн-данные могут быть исчерпаны к 2026 году, компании изучают альтернативные методы, такие как генерация синтетических данных с помощью моделей искусственного интеллекта. Однако использование синтетических данных для обучения сопряжено с определенными рисками и проблемами и может негативно сказаться на влияют на качество моделей

Генеральный директор OpenAI Сэм Альтман сам признал конечный характер онлайн-данных, выступая на технологической конференции в мае 2023 года: "Они закончатся", - сказал он.

Сай Дамле, юрист, представляющий Andreessen Horowitz, венчурную компанию из Кремниевой долины, также говорит о проблеме: "Единственный практический способ существования этих инструментов - это возможность их обучения на огромных объемах данных без необходимости лицензирования этих данных. Необходимые данные настолько велики, что даже коллективное лицензирование не поможет".

NYT и OpenAI вступили в противостояние горький иск об авторских правахВ результате "Таймс" потребовала возмещения многомиллионных убытков.

OpenAI нанес ответный удар, обвинив "Таймс" в том, что "Взламывая" свои модели чтобы найти примеры нарушения авторских прав.

Под "взломом" они подразумевают джейлбрейк или red-teaming, который подразумевает нацеливание на модель специально сформулированных подсказок, предназначенных для взлома с целью манипулирования результатами.

По мнению NYT, им не пришлось бы прибегать к взлому моделей, если бы компании, занимающиеся разработкой искусственного интеллекта, были прозрачны в отношении используемых ими данных.

Несомненно, это внутреннее расследование еще больше подчеркивает этическую и юридическую неприемлемость похищения данных компанией Big Tech.

Исков становится все больше, Правовая ситуация, связанная с использованием онлайн-данных для обучения ИИ, крайне нестабильна. 

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Сэм Джинс

Сэм - писатель в области науки и техники, работавший в различных AI-стартапах. Когда он не пишет, его можно найти за чтением медицинских журналов или копанием в коробках с виниловыми пластинками.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения