Meta har meddelat lanseringen av MusicGen, den senaste utvecklingen inom områdena musik och artificiell intelligens (AI).
Denna AI-modell med öppen källkod skapades för att generera musik med hjälp av text, vilket ger en distinkt och fantasifull metod för musikproduktion.
En nyligen publicerad forskningsrapport beskriver hur MusicGen har närmat sig musikskapande på ett unikt sätt. Den förutser nästa del av musiken istället för nästa tecken i en mening, vilket skapar logiska och organiserade musikaliska skapelser.
Med hjälp av Metas EnCodec audio tokenizer sönderdelar MusicGen ljuddata som en del av träningsprocessen.
I likhet med Googles MusicLM använder MusicGen 20 000 timmar licensierad musik från Shutterstock, Pond5 och ett stort bibliotek med högkvalitativa spår från interna källor, MusicGen har ett brett utbud av musikaliska genrer och kompositioner till sitt förfogande.
MusicGen kan reagera på både text- och musikinstruktioner. Den kan producera nya musikaliska kompositioner som representerar en viss stil genom att kombinera melodin från en ljudfil med en text som beskriver stilen.
Förmågan att höra melodier i olika genrer eller exakt kontroll över orienteringen till melodin tillhandahålls inte av MusicGen - i stället ger MusicGen en kreativ tolkning.
Forskarna testade modellstorlekar på mellan 300 miljoner och 3,3 miljarder parametrar. Även om modellen med 1,5 miljarder parametrar fick bäst betyg av de mänskliga bedömarna, gav större modeller ofta ljud av högre kvalitet. Noggrannheten i konverteringen av text till ljud i modellen med 3,3 miljarder parametrar var exceptionell.
MusicGen överträffar konkurrerande musikmodeller som Riffusion, Mousai, MusicLM och Noise2Music i både objektiva och godtyckliga mått.
Den visar prov på utmärkt förmåga att bedöma musikens och ordens förenlighet med varandra samt kompositionens trovärdighet.
Upptäck musiksamplingar här samt jämförelser mellan MusicGen och konkurrenter som Googles MusicLM.
Meta har gjort koden och modellerna tillgängliga som öppen källkod på Github, med kommersiell användning tillåten. Huggingface har en demonstration tillgänglig.