Metas MusicGen: Open source AI-model til generering af tekst-til-musik

13. juni 2023

Meta har annonceret lanceringen af MusicGen, deres seneste udvikling inden for musik og kunstig intelligens (AI). 

Denne open source AI-model blev skabt til at generere musik ved hjælp af tekst, hvilket giver en karakteristisk og fantasifuld metode til musikproduktion.

En nyligt udgivet forskningsartikel beskriver, hvordan MusicGen har grebet musikskabelse an på en unik måde. Den forudser den næste del af musikken i stedet for det næste tegn i en sætning, hvilket skaber logiske og organiserede musikalske kreationer.

Ved hjælp af Metas EnCodec audio tokenizer dekomponerer MusicGen lyddata som en del af træningsprocessen. 

I lighed med Googles MusicLM bruger MusicGen 20.000 timers licenseret musik fra Shutterstock, Pond5 og et stort bibliotek med numre af høj kvalitet fra interne kilder, og MusicGen har en bred vifte af musikalske genrer og kompositioner til sin rådighed.

MusicGen kan reagere på både tekst- og musikinstruktioner. Den kan producere nye musikalske kompositioner, der repræsenterer en bestemt stil, ved at fusionere melodien fra en lydfil med en tekstprompt, der beskriver den pågældende stil. 

Evnen til at høre melodier i forskellige genrer eller nøjagtig kontrol over orienteringen til melodien leveres ikke af MusicGen - i stedet giver MusicGen en kreativ fortolkning.

Forskerne testede modelstørrelser fra 300 millioner til 3,3 milliarder parametre. Selvom modellen med 1,5 milliarder parametre fik de bedste karakterer af de menneskelige bedømmere, producerede større modeller ofte lyd af højere kvalitet. Nøjagtigheden af den 3,3 milliarder parametre store models tekst-til-lyd-konvertering var enestående.

MusicGen overgår konkurrerende musikmodeller som Riffusion, Mousai, MusicLM og Noise2Music i både objektive og vilkårlige målinger.

Den viser, at den er god til at vurdere, om musikken og ordene passer sammen, og om kompositionen er troværdig.

Oplev musikeksempler her samt sammenligninger mellem MusicGen og konkurrenter som Googles MusicLM.

Meta har gjort koden og modellerne tilgængelige som open source på Github, med kommerciel brug tilladt. Knusende ansigt har en tilgængelig demonstration.

Deltag i fremtiden


TILMELD DIG I DAG

Klar, kortfattet, omfattende. Få styr på AI-udviklingen med DailyAI

Jay Parmar

Jay er teknisk skribent og kandidat i datalogi. Han har længe været AI- og ML-entusiast og skriver for forskellige platforme som HashDork og TutorialsPoint. I fritiden forenkler Jay teknologi og arbejder som freelancer.

×

GRATIS PDF EKSKLUSIVT
Vær på forkant med DailyAI

Tilmeld dig vores ugentlige nyhedsbrev og få eksklusiv adgang til DailyAI's seneste e-bog: 'Mastering AI Tools: Din 2024-guide til forbedret produktivitet'.

*Ved at tilmelde dig vores nyhedsbrev accepterer du vores Politik for beskyttelse af personlige oplysninger og vores Vilkår og betingelser