Meta's MusicGen: AI-modell med öppen källkod för generering av text-till-musik

13 juni 2023

Meta har meddelat lanseringen av MusicGen, den senaste utvecklingen inom områdena musik och artificiell intelligens (AI). 

Denna AI-modell med öppen källkod skapades för att generera musik med hjälp av text, vilket ger en distinkt och fantasifull metod för musikproduktion.

En nyligen publicerad forskningsrapport beskriver hur MusicGen har närmat sig musikskapande på ett unikt sätt. Den förutser nästa del av musiken istället för nästa tecken i en mening, vilket skapar logiska och organiserade musikaliska skapelser.

Med hjälp av Metas EnCodec audio tokenizer sönderdelar MusicGen ljuddata som en del av träningsprocessen. 

I likhet med Googles MusicLM använder MusicGen 20 000 timmar licensierad musik från Shutterstock, Pond5 och ett stort bibliotek med högkvalitativa spår från interna källor, MusicGen har ett brett utbud av musikaliska genrer och kompositioner till sitt förfogande.

MusicGen kan reagera på både text- och musikinstruktioner. Den kan producera nya musikaliska kompositioner som representerar en viss stil genom att kombinera melodin från en ljudfil med en text som beskriver stilen. 

Förmågan att höra melodier i olika genrer eller exakt kontroll över orienteringen till melodin tillhandahålls inte av MusicGen - i stället ger MusicGen en kreativ tolkning.

Forskarna testade modellstorlekar på mellan 300 miljoner och 3,3 miljarder parametrar. Även om modellen med 1,5 miljarder parametrar fick bäst betyg av de mänskliga bedömarna, gav större modeller ofta ljud av högre kvalitet. Noggrannheten i konverteringen av text till ljud i modellen med 3,3 miljarder parametrar var exceptionell.

MusicGen överträffar konkurrerande musikmodeller som Riffusion, Mousai, MusicLM och Noise2Music i både objektiva och godtyckliga mått.

Den visar prov på utmärkt förmåga att bedöma musikens och ordens förenlighet med varandra samt kompositionens trovärdighet.

Upptäck musiksamplingar här samt jämförelser mellan MusicGen och konkurrenter som Googles MusicLM.

Meta har gjort koden och modellerna tillgängliga som öppen källkod på Github, med kommersiell användning tillåten. Huggingface har en demonstration tillgänglig.

Bli en del av framtiden


PRENUMERERA IDAG

Tydlig, kortfattad och heltäckande. Få grepp om AI-utvecklingen med DagligaAI

Jay Parmar

Jay är teknisk skribent och har en examen i datavetenskap. Han är en långvarig AI- och ML-entusiast och skriver för olika plattformar som HashDork, TutorialsPoint. När han inte är i tjänst förenklar Jay teknik och frilansar.

×

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI

Registrera dig för vårt veckovisa nyhetsbrev och få exklusiv tillgång till DailyAI:s senaste e-bok: "Mastering AI Tools: Din 2024-guide till förbättrad produktivitet".

*Genom att prenumerera på vårt nyhetsbrev accepterar du vår Integritetspolicy och våra Villkor och anvisningar