MusicGen de Meta : Modèle d'IA open-source pour la génération de musique à partir de texte

13 juin 2023

Meta a annoncé le lancement de MusicGen, son développement le plus récent dans les domaines de la musique et de l'intelligence artificielle (IA). 

Ce modèle d'IA à code source ouvert a été créé pour générer de la musique à partir de textes, offrant ainsi une méthode de production musicale originale et imaginative.

Une publication récente document de recherche décrit comment MusicGen a abordé la création musicale d'une manière unique. Il anticipe la prochaine partie de la musique au lieu du prochain caractère d'une phrase, créant ainsi des créations musicales logiques et organisées.

En utilisant le tokenizer audio EnCodec de Meta, MusicGen décompose les données audio dans le cadre du processus d'apprentissage. 

À l'instar de MusicLM de Google, MusicGen utilise 20 000 heures de musique sous licence de Shutterstock et Pond5, ainsi qu'une vaste bibliothèque de morceaux de haute qualité provenant de sources internes. MusicGen dispose d'une grande variété de genres musicaux et de compositions.

MusicGen peut répondre à des instructions textuelles et musicales. Il peut produire de nouvelles compositions musicales représentant un certain style en fusionnant la mélodie d'un fichier audio avec une instruction textuelle décrivant ce style. 

MusicGen n'offre pas la possibilité d'entendre des mélodies de différents genres ni le contrôle exact de l'orientation de la mélodie - MusicGen propose plutôt une interprétation créative.

Les chercheurs ont testé des modèles allant de 300 millions à 3,3 milliards de paramètres. Bien que le modèle à 1,5 milliard de paramètres ait obtenu les meilleures notes de la part des évaluateurs humains, les modèles plus grands ont souvent produit des données audio de meilleure qualité. La précision de la conversion texte-audio du modèle à 3,3 milliards de paramètres a été exceptionnelle.

MusicGen surpasse les modèles musicaux concurrents tels que Riffusion, Mousai, MusicLM et Noise2Music en termes de mesures objectives et arbitraires.

Il fait preuve d'excellence dans l'évaluation de la compatibilité de la musique et des mots ainsi que de la crédibilité de la composition.

Découvrir des extraits musicaux ici ainsi que des comparaisons entre MusicGen et des concurrents tels que MusicLM de Google.

Meta a mis le code et les modèles à disposition en tant que source ouverte sur le site GithubL'utilisation commerciale est autorisée. Visage étreint dispose d'une démonstration accessible.

Rejoindre l'avenir


SOUSCRIRE AUJOURD'HUI

Clair, concis, complet. Maîtrisez les développements de l'IA avec DailyAI

Jay Parmar

Jay est rédacteur technique et diplômé en informatique. Il est passionné depuis longtemps par l'IA et la ML et écrit pour diverses plateformes telles que HashDork et TutorialsPoint. En dehors de ses heures de travail, Jay simplifie la technologie et travaille en freelance.

×

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI

Inscrivez-vous à notre newsletter hebdomadaire et recevez un accès exclusif au dernier eBook de DailyAI : 'Mastering AI Tools : Your 2024 Guide to Enhanced Productivity" (Maîtriser les outils de l'IA : votre guide 2024 pour une meilleure productivité).

*En vous abonnant à notre lettre d'information, vous acceptez nos conditions d'utilisation. Politique de confidentialité et notre Conditions générales d'utilisation