Внутри борьбы Больших Технологий за данные для обучения ИИ

В бешеной погоне за данными для обучения ИИ технологические гиганты OpenAI, Google и Meta, как сообщается, обходят корпоративную политику, изменяют правила и обсуждают обход закона об авторском праве.

A Расследование New York Times рассказывает о том, на что пошли эти компании, собирая информацию в Интернете, чтобы накормить свои жаждущие данных системы искусственного интеллекта.

В конце 2021 года исследователи OpenAI разработали инструмент распознавания речи под названием Whisper для расшифровки видеороликов на YouTube в условиях нехватки достоверных англоязычных текстовых данных.

Несмотря на внутренние дискуссии о потенциальном нарушении правил YouTube, которые запрещают использовать его видео для "независимых" приложений,

NYT выяснила, что OpenAI в итоге расшифровала более миллиона часов контента YouTube. Грег Брокман, президент OpenAI, лично помогал собирать видео. Затем расшифрованный текст был передан в GPT-4.

Google также предположительно расшифровывает видеоролики на YouTube, чтобы собрать текст для своих моделей искусственного интеллекта, потенциально нарушая авторские права создателей видео.

Это произошло через несколько дней после того, как генеральный директор YouTube заявил, что такая деятельность нарушает условия обслуживания компании и подрывать творцов.

В июне 2023 года юридический отдел Google потребовал внести изменения в политику конфиденциальности компании, разрешив использовать общедоступный контент из Google Docs и других приложений Google для более широкого спектра продуктов искусственного интеллекта.

Компания Meta, столкнувшаяся с нехваткой данных, рассматривает различные варианты получения дополнительных учебных данных.

Руководители обсуждали оплату лицензионных прав на книги, покупку издательства Simon & Schuster и даже сбор материалов, защищенных авторским правом, из Интернета без разрешения, рискуя потенциальными судебными исками.

Юристы Meta утверждали, что использование данных для обучения систем искусственного интеллекта должно подпадать под понятие "добросовестное использование", ссылаясь на решение суда 2015 года, касающееся проекта Google по сканированию книг.

Этические проблемы и будущее обучающих данных ИИ

Коллективные действия этих технологических компаний подчеркивают критическое значение онлайн-данных для бурно развивающейся индустрии искусственного интеллекта.

Такая практика вызывает озабоченность по поводу нарушения авторских прав и справедливого вознаграждения авторов.

Режиссер и автор Джастин Бейтман (Justine Bateman) заявила в Бюро по авторским правам, что модели искусственного интеллекта забирают контент, в том числе ее произведения и фильмы, без разрешения и оплаты.

"Это самая крупная кража в Соединенных Штатах", - сказала она в интервью.

В изобразительном искусстве MidJourney и другие модели изображений были доказано, что генерирует авторские права Контент, например, сцены из фильмов Marvel.

Поскольку некоторые эксперты прогнозируют, что высококачественные онлайн-данные могут быть исчерпаны к 2026 году, компании изучают альтернативные методы, такие как генерация синтетических данных с помощью моделей искусственного интеллекта. Однако использование синтетических данных для обучения сопряжено с определенными рисками и проблемами и может негативно сказаться на влияют на качество моделей.

Генеральный директор OpenAI Сэм Альтман сам признал конечный характер онлайн-данных, выступая на технологической конференции в мае 2023 года: "Они закончатся", - сказал он.

Сай Дамле, юрист, представляющий Andreessen Horowitz, венчурную компанию из Кремниевой долины, также говорит о проблеме: "Единственный практический способ существования этих инструментов - это возможность их обучения на огромных объемах данных без необходимости лицензирования этих данных. Необходимые данные настолько велики, что даже коллективное лицензирование не поможет".

NYT и OpenAI вступили в противостояние горький иск об авторских правахВ результате "Таймс" потребовала возмещения многомиллионных убытков.

OpenAI нанес ответный удар, обвинив "Таймс" в том, что "Взламывая" свои модели чтобы найти примеры нарушения авторских прав.

Под "взломом" они подразумевают джейлбрейк или red-teaming, который подразумевает нацеливание на модель специально сформулированных подсказок, предназначенных для взлома с целью манипулирования результатами.

По мнению NYT, им не пришлось бы прибегать к взлому моделей, если бы компании, занимающиеся разработкой искусственного интеллекта, были прозрачны в отношении используемых ими данных.

Несомненно, это внутреннее расследование еще больше подчеркивает этическую и юридическую неприемлемость похищения данных компанией Big Tech.

Исков становится все больше, Правовая ситуация, связанная с использованием онлайн-данных для обучения ИИ, крайне нестабильна.

Внутри борьбы Больших Технологий за данные для обучения ИИ

Этические проблемы и будущее обучающих данных ИИ

Присоединяйтесь к будущему

Сэм Джинс

СВЯЗАННЫЕ СТАТЬИ

10 top women in AI in 2026

ChatGPT Is Making People Think They’re Gods and Their Families Are Terrified

China Unveils World’s First AI Hospital: 14 Virtual Doctors Ready to Treat Thousands Daily

Katy Perry Didn’t Attend the Met Gala, But AI Made Her the Star of the Night

Внутри борьбы Больших Технологий за данные для обучения ИИ

Этические проблемы и будущее обучающих данных ИИ

Присоединяйтесь к будущему

Сэм Джинс

СВЯЗАННЫЕ СТАТЬИ

10 top women in AI in 2026

ChatGPT Is Making People Think They’re Gods and Their Families Are Terrified

China Unveils World’s First AI Hospital: 14 Virtual Doctors Ready to Treat Thousands Daily

Katy Perry Didn’t Attend the Met Gala, But AI Made Her the Star of the Night

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDFБудьте впереди с DailyAI

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI