Meta har kunngjort lanseringen av MusicGen, selskapets nyeste utvikling innen musikk og kunstig intelligens (AI).
Denne AI-modellen med åpen kildekode ble utviklet for å generere musikk ved hjelp av tekst, noe som gir en særegen og fantasifull metode for musikkproduksjon.
En nylig publisert forskningsoppgave beskriver hvordan MusicGen har tilnærmet seg musikkskaping på en unik måte. Den forutser neste del av musikken i stedet for neste tegn i en setning, noe som skaper logiske og organiserte musikalske kreasjoner.
Ved hjelp av Metas EnCodec audio tokenizer dekomponerer MusicGen lyddata som en del av opplæringsprosessen.
I likhet med Googles MusicLM bruker MusicGen 20 000 timer med lisensiert musikk fra Shutterstock, Pond5 og et stort bibliotek med spor av høy kvalitet fra interne kilder, og MusicGen har et bredt utvalg av musikksjangre og komposisjoner til rådighet.
MusicGen kan reagere på både tekst- og musikkinstruksjoner. Den kan produsere nye musikalske komposisjoner som representerer en bestemt stil ved å kombinere melodien fra en lydfil med en tekstmelding som beskriver denne stilen.
MusicGen gir deg ikke muligheten til å høre melodier i ulike sjangre eller nøyaktig kontroll over retningen på melodien - i stedet gir MusicGen en kreativ tolkning.
Forskerne testet modellstørrelser fra 300 millioner til 3,3 milliarder parametere. Selv om modellen med 1,5 milliarder parametere fikk best karakterer av de menneskelige bedømmerne, ga større modeller ofte lyd av høyere kvalitet. Nøyaktigheten i tekst-til-lyd-konverteringen i modellen med 3,3 milliarder parametere var eksepsjonell.
MusicGen overgår konkurrerende musikkmodeller som Riffusion, Mousai, MusicLM og Noise2Music i både objektive og vilkårlige mål.
Den viser at den er dyktig til å vurdere kompatibiliteten mellom musikk og ord, samt komposisjonens troverdighet.
Oppdag musikkeksempler her samt sammenligninger mellom MusicGen og konkurrenter som Googles MusicLM.
Meta har gjort koden og modellene tilgjengelige som åpen kildekode på Github, med kommersiell bruk tillatt. Huggingface har en demonstrasjon tilgjengelig.