MusicGen de Meta: Modelo de IA de código abierto para la conversión de texto en música

13 de junio de 2023

Meta ha anunciado el lanzamiento de MusicGen, su más reciente desarrollo en los ámbitos de la música y la inteligencia artificial (IA). 

Este modelo de IA de código abierto se creó para generar música a partir de texto, proporcionando un método distintivo e imaginativo de producción musical.

Una publicación reciente trabajo de investigación describe cómo MusicGen ha enfocado la creación musical de una manera única. Anticipa la siguiente porción de música en lugar del siguiente carácter de una frase, creando creaciones musicales lógicas y organizadas.

Utilizando el tokenizador de audio EnCodec de Meta, MusicGen descompone los datos de audio como parte del proceso de formación. 

Al igual que MusicLM de Google, MusicGen utiliza 20.000 horas de música con licencia de Shutterstock, Pond5 y una enorme biblioteca de pistas de alta calidad de fuentes internas, MusicGen tiene a su disposición una amplia variedad de géneros y composiciones musicales.

MusicGen puede responder tanto a instrucciones de texto como musicales. Puede producir nuevas composiciones musicales que representen un determinado estilo fusionando la melodía de un archivo de audio con una instrucción de texto que describa ese estilo. 

MusicGen no ofrece la posibilidad de escuchar melodías de distintos géneros ni un control exacto de la orientación de la melodía, sino una interpretación creativa.

Los investigadores probaron modelos de entre 300 millones y 3.300 millones de parámetros. Aunque el modelo de 1.500 millones de parámetros obtuvo las mejores puntuaciones de los evaluadores humanos, los modelos más grandes solían producir audio de mayor calidad. La precisión de la conversión de texto a audio del modelo de 3.300 millones de parámetros fue excepcional.

MusicGen supera a modelos musicales de la competencia como Riffusion, Mousai, MusicLM y Noise2Music tanto en medidas objetivas como arbitrarias.

Demuestra excelencia a la hora de evaluar la compatibilidad de la música y las palabras, así como la credibilidad de la composición.

Descubra muestras de música aquí así como comparaciones entre MusicGen y competidores como MusicLM de Google.

Meta ha puesto a disposición el código y los modelos como código abierto en GithubSe permite el uso comercial. Cara de abrazo tiene una demostración accesible.

Únete al futuro


SUSCRÍBETE HOY

Claro, conciso y completo. Conozca los avances de la IA con DailyAI

Jay Parmar

Jay es redactor técnico y licenciado en Informática. Es un entusiasta de la IA y el ML desde hace mucho tiempo y escribe para varias plataformas como HashDork, TutorialsPoint. Fuera del trabajo, Jay simplifica la tecnología y trabaja como freelance.

×

PDF GRATUITO EXCLUSIVO
Adelántese con DailyAI

Suscríbase a nuestro boletín semanal y reciba acceso exclusivo al último eBook de DailyAI: 'Mastering AI Tools: Su guía 2024 para mejorar la productividad'.

*Al suscribirse a nuestro boletín de noticias, acepta nuestra política de privacidad. Política de privacidad y nuestro Condiciones generales