A Meta anunciou o lançamento do MusicGen, o seu mais recente desenvolvimento nos domínios da música e da inteligência artificial (IA).
Este modelo de IA de fonte aberta foi criado para gerar música utilizando texto, proporcionando um método distinto e imaginativo de produção musical.
Um estudo recentemente publicado trabalho de investigação descreve como MusicGen abordou a criação de música de uma forma única. Ele antecipa a próxima parte da música em vez do próximo caractere de uma frase, criando criações musicais lógicas e organizadas.
Usando o tokenizador de áudio EnCodec da Meta, o MusicGen decompõe os dados de áudio como parte do processo de treinamento.
Semelhante ao MusicLM da Google, o MusicGen utiliza 20.000 horas de música licenciada da Shutterstock, Pond5 e uma enorme biblioteca de faixas de alta qualidade de fontes internas, o MusicGen tem uma grande variedade de géneros musicais e composições à sua disposição.
O MusicGen pode responder tanto a instruções de texto como de música. Pode produzir novas composições musicais que representem um determinado estilo, fundindo a melodia de um ficheiro áudio com uma instrução de texto que descreva esse estilo.
A capacidade de ouvir melodias em vários géneros ou o controlo exato sobre a orientação da melodia não são fornecidos por MusicGen - em vez disso, MusicGen dá uma interpretação criativa.
Os investigadores testaram modelos com tamanhos entre 300 milhões e 3,3 mil milhões de parâmetros. Embora o modelo com 1,5 mil milhões de parâmetros tenha obtido as melhores classificações dos avaliadores humanos, os modelos maiores produziram frequentemente áudio de maior qualidade. A precisão da conversão de texto para áudio do modelo de 3,3 mil milhões de parâmetros foi excecional.
MusicGen supera os modelos musicais concorrentes como Riffusion, Mousai, MusicLM e Noise2Music em medidas objectivas e arbitrárias.
Demonstra excelência na avaliação da compatibilidade entre a música e a letra, bem como da credibilidade da composição.
Descobrir amostras de música aqui bem como comparações entre o MusicGen e concorrentes como o MusicLM da Google.
A Meta disponibilizou o código e os modelos como fonte aberta em Github, sendo permitida a utilização comercial. Cara de abraço tem uma demonstração acessível.