Компания Meta объявила о запуске MusicGen, своей последней разработки в области музыки и искусственного интеллекта (ИИ).
Эта модель искусственного интеллекта с открытым исходным кодом была создана для создания музыки на основе текста, обеспечивая оригинальный и образный метод создания музыки.
Недавно опубликованный научная статья описывает уникальный подход MusicGen к созданию музыки. Он предвосхищает следующую часть музыки, а не следующий символ в предложении, создавая логичные и организованные музыкальные творения.
Используя аудио-токенизатор EnCodec от Meta, MusicGen декомпозирует аудиоданные в процессе обучения.
Подобно MusicLM от Google, MusicGen использует 20 000 часов лицензионной музыки с Shutterstock, Pond5 и огромную библиотеку высококачественных треков из внутренних источников. В распоряжении MusicGen широкий спектр музыкальных жанров и композиций.
MusicGen может реагировать как на текстовые, так и на музыкальные инструкции. Он может создавать новые музыкальные композиции, представляющие определенный стиль, соединяя мелодию из аудиофайла с текстовой подсказкой, описывающей этот стиль.
Способность слышать мелодии различных жанров или точно контролировать ориентацию на мелодию MusicGen не предоставляет - вместо этого MusicGen дает творческую интерпретацию.
Исследователи протестировали модели с количеством параметров от 300 миллионов до 3,3 миллиарда. Хотя модель с 1,5 миллиардами параметров получила лучшие оценки от человеческих экспертов, более крупные модели часто выдавали аудиозаписи более высокого качества. Точность преобразования текста в аудиозаписи модели с 3,3 миллиардами параметров была исключительной.
MusicGen превосходит такие конкурирующие музыкальные модели, как Riffusion, Mousai, MusicLM и Noise2Music, как по объективным, так и по произвольным показателям.
Он демонстрирует мастерство в оценке сочетаемости музыки и слов, а также убедительности композиции.
Откройте для себя образцы музыки здесь а также сравнение MusicGen с конкурентами, такими как Google MusicLM.
Meta сделала код и модели доступными с открытым исходным кодом на сайте GithubРазрешено коммерческое использование. Обнимая лицо доступна демонстрация.