Meta ha annunciato il lancio di MusicGen, il suo più recente sviluppo nel campo della musica e dell'intelligenza artificiale (AI).
Questo modello di intelligenza artificiale open-source è stato creato per generare musica utilizzando il testo, fornendo un metodo distintivo e fantasioso di produzione musicale.
Una recente pubblicazione carta di ricerca descrive come MusicGen si sia avvicinato alla creazione musicale in modo unico. Anticipa la prossima porzione di musica invece del prossimo carattere di una frase, dando vita a creazioni musicali logiche e organizzate.
Utilizzando il tokenizer audio EnCodec di Meta, MusicGen scompone i dati audio come parte del processo di formazione.
Simile a MusicLM di Google, MusicGen utilizza 20.000 ore di musica su licenza di Shutterstock, Pond5 e un'enorme libreria di brani di alta qualità provenienti da fonti interne, MusicGen ha a disposizione un'ampia varietà di generi musicali e composizioni.
MusicGen può rispondere a istruzioni sia testuali che musicali. Può produrre nuove composizioni musicali che rappresentano un certo stile fondendo la melodia di un file audio con una richiesta di testo che descrive quello stile.
La capacità di ascoltare melodie di vari generi o il controllo esatto dell'orientamento della melodia non sono forniti da MusicGen, che ne fornisce invece un'interpretazione creativa.
I ricercatori hanno testato modelli di dimensioni comprese tra 300 milioni e 3,3 miliardi di parametri. Sebbene il modello da 1,5 miliardi di parametri abbia ottenuto i punteggi migliori dai valutatori umani, i modelli più grandi hanno spesso prodotto audio di qualità superiore. L'accuratezza della conversione da testo ad audio del modello da 3,3 miliardi di parametri è stata eccezionale.
MusicGen supera modelli musicali concorrenti come Riffusion, Mousai, MusicLM e Noise2Music in misure oggettive e arbitrarie.
Dimostra eccellenza nel valutare la compatibilità tra musica e parole e la credibilità della composizione.
Scoprire i campioni musicali qui nonché confronti tra MusicGen e concorrenti come MusicLM di Google.
Meta ha reso disponibili il codice e i modelli come open source su Github, con possibilità di utilizzo commerciale. Faccia da abbracciare ha una dimostrazione accessibile.