Metas MusicGen: AI-modell med åpen kildekode for generering av tekst-til-musikk

13. juni 2023

Meta har kunngjort lanseringen av MusicGen, selskapets nyeste utvikling innen musikk og kunstig intelligens (AI). 

Denne AI-modellen med åpen kildekode ble utviklet for å generere musikk ved hjelp av tekst, noe som gir en særegen og fantasifull metode for musikkproduksjon.

En nylig publisert forskningsoppgave beskriver hvordan MusicGen har tilnærmet seg musikkskaping på en unik måte. Den forutser neste del av musikken i stedet for neste tegn i en setning, noe som skaper logiske og organiserte musikalske kreasjoner.

Ved hjelp av Metas EnCodec audio tokenizer dekomponerer MusicGen lyddata som en del av opplæringsprosessen. 

I likhet med Googles MusicLM bruker MusicGen 20 000 timer med lisensiert musikk fra Shutterstock, Pond5 og et stort bibliotek med spor av høy kvalitet fra interne kilder, og MusicGen har et bredt utvalg av musikksjangre og komposisjoner til rådighet.

MusicGen kan reagere på både tekst- og musikkinstruksjoner. Den kan produsere nye musikalske komposisjoner som representerer en bestemt stil ved å kombinere melodien fra en lydfil med en tekstmelding som beskriver denne stilen. 

MusicGen gir deg ikke muligheten til å høre melodier i ulike sjangre eller nøyaktig kontroll over retningen på melodien - i stedet gir MusicGen en kreativ tolkning.

Forskerne testet modellstørrelser fra 300 millioner til 3,3 milliarder parametere. Selv om modellen med 1,5 milliarder parametere fikk best karakterer av de menneskelige bedømmerne, ga større modeller ofte lyd av høyere kvalitet. Nøyaktigheten i tekst-til-lyd-konverteringen i modellen med 3,3 milliarder parametere var eksepsjonell.

MusicGen overgår konkurrerende musikkmodeller som Riffusion, Mousai, MusicLM og Noise2Music i både objektive og vilkårlige mål.

Den viser at den er dyktig til å vurdere kompatibiliteten mellom musikk og ord, samt komposisjonens troverdighet.

Oppdag musikkeksempler her samt sammenligninger mellom MusicGen og konkurrenter som Googles MusicLM.

Meta har gjort koden og modellene tilgjengelige som åpen kildekode på Github, med kommersiell bruk tillatt. Huggingface har en demonstrasjon tilgjengelig.

Bli med i fremtiden


ABONNER I DAG

Tydelig, kortfattet og omfattende. Få et grep om AI-utviklingen med DagligAI

Jay Parmar

Jay er teknisk skribent og utdannet informatiker. Han har lenge vært en AI- og ML-entusiast og skriver for ulike plattformer som HashDork og TutorialsPoint. Når han ikke er på jobb, forenkler Jay teknologi og frilanser.

×

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI

Meld deg på vårt ukentlige nyhetsbrev og få eksklusiv tilgang til DailyAIs nyeste e-bok: "Mastering AI Tools: Din 2024-guide til økt produktivitet".

*Ved å abonnere på vårt nyhetsbrev aksepterer du vår Retningslinjer for personvern og vår Vilkår og betingelser