Meta har annonceret lanceringen af MusicGen, deres seneste udvikling inden for musik og kunstig intelligens (AI).
Denne open source AI-model blev skabt til at generere musik ved hjælp af tekst, hvilket giver en karakteristisk og fantasifuld metode til musikproduktion.
En nyligt udgivet forskningsartikel beskriver, hvordan MusicGen har grebet musikskabelse an på en unik måde. Den forudser den næste del af musikken i stedet for det næste tegn i en sætning, hvilket skaber logiske og organiserede musikalske kreationer.
Ved hjælp af Metas EnCodec audio tokenizer dekomponerer MusicGen lyddata som en del af træningsprocessen.
I lighed med Googles MusicLM bruger MusicGen 20.000 timers licenseret musik fra Shutterstock, Pond5 og et stort bibliotek med numre af høj kvalitet fra interne kilder, og MusicGen har en bred vifte af musikalske genrer og kompositioner til sin rådighed.
MusicGen kan reagere på både tekst- og musikinstruktioner. Den kan producere nye musikalske kompositioner, der repræsenterer en bestemt stil, ved at fusionere melodien fra en lydfil med en tekstprompt, der beskriver den pågældende stil.
Evnen til at høre melodier i forskellige genrer eller nøjagtig kontrol over orienteringen til melodien leveres ikke af MusicGen - i stedet giver MusicGen en kreativ fortolkning.
Forskerne testede modelstørrelser fra 300 millioner til 3,3 milliarder parametre. Selvom modellen med 1,5 milliarder parametre fik de bedste karakterer af de menneskelige bedømmere, producerede større modeller ofte lyd af højere kvalitet. Nøjagtigheden af den 3,3 milliarder parametre store models tekst-til-lyd-konvertering var enestående.
MusicGen overgår konkurrerende musikmodeller som Riffusion, Mousai, MusicLM og Noise2Music i både objektive og vilkårlige målinger.
Den viser, at den er god til at vurdere, om musikken og ordene passer sammen, og om kompositionen er troværdig.
Oplev musikeksempler her samt sammenligninger mellem MusicGen og konkurrenter som Googles MusicLM.
Meta har gjort koden og modellerne tilgængelige som open source på Github, med kommerciel brug tilladt. Knusende ansigt har en tilgængelig demonstration.