Компания Stability AI объявила о выпуске своего аудиогенератора искусственного интеллекта и утверждает, что он обеспечивает первоклассную производительность.
За последние несколько месяцев мы видели множество аудиогенераторов AI с различной производительностью, но Stable Audio, похоже, поднял планку.
С помощью Stable Audio вы можете ввести текстовую подсказку, и она сгенерирует музыку или аудио на основе этой подсказки. Подобную функциональность мы уже видели у Google с ее MusicLM и продуктов AudioCraft от Meta.
MusicLM пока доступен только на тестовой кухне Google и генерирует музыку с частотой 24 кГц. Meta's AudioCraft действительно впечатляет, но он воспроизводит музыку только на частоте 32 кГц.
Stable Audio - это первый развернутый генератор текста в аудио, который выводит звук с частотой 44,1 кГц, что соответствует частоте дискретизации музыки "CD-качества".
Еще одна впечатляющая особенность Stable Audio - длина создаваемых треков. Большинство генераторов AI-аудио создают короткие музыкальные фрагменты, которые быстро повторяются или теряются. Stable Audio создает более нюансированную музыку продолжительностью около 90 секунд, не теряя при этом связности.
Сегодня мы с радостью представляем Stable Audio, наш первый продукт с искусственным интеллектом для создания музыки и звука!
Попробуйте его здесь бесплатно! #stabilityAI #stableaudio #newannouncement
https://t.co/pRK3Qs9Fak pic.twitter.com/cZfbK1mZYA- Stability AI (@StabilityAI) 13 сентября 2023 года
Вы можете ознакомиться с некоторыми образцы сгенерированного аудио здесь.
Вот пример трека, который мне удалось сгенерировать с помощью этого инструмента, используя следующий запрос:
"Пост-рок, гитары, ударная установка, бас, струнные, эйфорический, подъем, настроение, плавный, сырой, эпический, сентиментальный, 125 BPM"
Звучит неплохо.
Модель основана на технике скрытой диффузии, которую Stability использует для других своих продуктов генеративного ИИ. Она использует несколько умных кодеков во время вывод в котором говорится, что с помощью графического процессора Nvidia A100 можно создать 95 секунд музыки с частотой 44,1 кГц за 1 секунду.
Вопросы обучения и авторского права
Stability AI выпустила Stable Audio в сотрудничестве с Harmonai, исследовательской лабораторией глубокого обучения, занимающейся созданием генеративных аудиомоделей с открытым исходным кодом. Команда Stability AI по работе с аудио создала новую модель на основе своей предыдущей модели Dance Diffusion, которую обучила HarmonAI.
Набор данных, использованный для обучения Stable Audio, был получен от компании AudioSparx, которая предоставила около 800 000 песен от независимых музыкальных исполнителей, которых она представляет.
Художникам была предоставлена возможность исключить свои работы из набора данных, что, как сообщается, сделали около 10%.
Художники, согласившиеся на включение своих работ в набор данных, будут участвовать в соглашении о разделе прибыли, которое заключили Stability AI и AudioSparx.
В наборе данных нет артистов с крупными лейблами, но Stable Audio не мешает вам добавить название исполнителя или группы в подсказку.
Хотя библиотека AudioSparx не содержит работ таких групп, как, например, AC/DC, она содержит множество музыка, которую описывают как музыку в стиле AC/DC.
Вы по-прежнему не можете защищать авторские права на музыку, созданную с помощью инструмента искусственного интеллекта. А в условиях использования сказано, что вы "несете ответственность за законность всего контента", созданного с помощью Stable Audio.
Условия также гласят, что "вы заявляете и гарантируете, что вам принадлежат все необходимые права, титулы и интересы в отношении таких подсказок, включая, без ограничений, все необходимые авторские права и права на публичность, содержащиеся в них".
Так что, возможно, не стоит добавлять "Metallica" в свою подсказку. Эти ребята делают отличную музыку, но они также любят судебные иски по авторским правам.
Сколько стоит Stable Audio?
Вы можете попробуйте Stable Audio бесплатно, но вы будете ограничены созданием 20 некоммерческих треков в месяц, каждый длиной не более 20 секунд. А их серверы в данный момент абсолютно перегружены, поэтому создание трека занимает много времени.
Мы рады, что спрос на наш сегодняшний запуск Stable Audio зашкаливает! Но наши серверы сейчас работают на полную мощность, поэтому вы можете не получить доступ к продукту. Если вы не можете, мы просим вас вернуться через 24 часа и повторить попытку.
А пока мы усердно работаем...
- Stability AI (@StabilityAI) 13 сентября 2023 года
Подписка Pro обойдется вам в $11.99 в месяц, что позволит вам ежемесячно генерировать 500 коммерциализируемых треков длиной до 90 секунд.
Неиспользованные кредиты генерации не переносятся на следующий месяц, так что используйте их или потеряете.
Если у вас есть приложение, веб-сайт или программное обеспечение с числом пользователей более 100 000, вам необходимо связаться с компанией Stability, чтобы узнать цену на корпоративный тарифный план.
Компания Stability заявляет, что "в скором времени откроет доступ к модели генерации музыки, обученной на других данных".
Возможно, благодаря своему продукту Stable Audio компания Stability AI наконец-то нашла способ заработать деньги для своих инвесторов.