MusicGen da Meta: Modelo de IA de código aberto para geração de texto para música

13 de junho de 2023

A Meta anunciou o lançamento do MusicGen, o seu mais recente desenvolvimento nos domínios da música e da inteligência artificial (IA). 

Este modelo de IA de fonte aberta foi criado para gerar música utilizando texto, proporcionando um método distinto e imaginativo de produção musical.

Um estudo recentemente publicado trabalho de investigação descreve como MusicGen abordou a criação de música de uma forma única. Ele antecipa a próxima parte da música em vez do próximo caractere de uma frase, criando criações musicais lógicas e organizadas.

Usando o tokenizador de áudio EnCodec da Meta, o MusicGen decompõe os dados de áudio como parte do processo de treinamento. 

Semelhante ao MusicLM da Google, o MusicGen utiliza 20.000 horas de música licenciada da Shutterstock, Pond5 e uma enorme biblioteca de faixas de alta qualidade de fontes internas, o MusicGen tem uma grande variedade de géneros musicais e composições à sua disposição.

O MusicGen pode responder tanto a instruções de texto como de música. Pode produzir novas composições musicais que representem um determinado estilo, fundindo a melodia de um ficheiro áudio com uma instrução de texto que descreva esse estilo. 

A capacidade de ouvir melodias em vários géneros ou o controlo exato sobre a orientação da melodia não são fornecidos por MusicGen - em vez disso, MusicGen dá uma interpretação criativa.

Os investigadores testaram modelos com tamanhos entre 300 milhões e 3,3 mil milhões de parâmetros. Embora o modelo com 1,5 mil milhões de parâmetros tenha obtido as melhores classificações dos avaliadores humanos, os modelos maiores produziram frequentemente áudio de maior qualidade. A precisão da conversão de texto para áudio do modelo de 3,3 mil milhões de parâmetros foi excecional.

MusicGen supera os modelos musicais concorrentes como Riffusion, Mousai, MusicLM e Noise2Music em medidas objectivas e arbitrárias.

Demonstra excelência na avaliação da compatibilidade entre a música e a letra, bem como da credibilidade da composição.

Descobrir amostras de música aqui bem como comparações entre o MusicGen e concorrentes como o MusicLM da Google.

A Meta disponibilizou o código e os modelos como fonte aberta em Github, sendo permitida a utilização comercial. Cara de abraço tem uma demonstração acessível.

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Jay Parmar

Jay é um escritor técnico e graduado em Ciência da Computação. É um entusiasta de longa data de IA e ML e escreve para várias plataformas como HashDork, TutorialsPoint. Fora de serviço, Jay simplifica a tecnologia e trabalha como freelancer.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições