Meta ha lanzado esta semana su IA generativa de texto a audio llamada AudioCraft y las muestras de su resultado son impresionantes.
La IA generativa ha experimentado un desarrollo exponencial en la generación de texto, imágenes y voz, pero no ha habido muchas novedades en la generación de audio. AudioCraft es una de las primeras herramientas de conversión de texto a audio de este tipo que se pueden probar correctamente.
A principios de este año, Google nos dio un vistazo a su generador de texto a música MusicLM, pero ya han pasado 8 meses y sólo puedes probarlo si te aceptan en su Cocina de Pruebas de Inteligencia Artificial.
Los modelos preentrenados de AudioCraft se pueden descargar en GitHub y Meta espera que su estrategia de código abierto impulse la adopción y las pruebas para mejorar los modelos.
AudioCraft se compone de los modelos MusicGen, AudioGen y Encodec de Meta.
El modelo MusicGen se entrenó con música con licencia específica y propiedad de Meta, y produce música a partir de un mensaje de texto. En el ejemplo del blog de Meta se utilizó el siguiente texto: "Pista pop dance con melodías pegadizas, percusiones tropicales y ritmos alegres, perfecta para la playa".
El sonido de la música es bastante bueno y se acerca mucho al mensaje. Es probable que la muestra haya sido seleccionada, pero no por ello deja de ser impresionante. Puedes escuchar más muestras aquí.
🎵 Hoy compartimos detalles sobre AudioCraft, una familia de modelos generativos de IA que te permite generar fácilmente audio y música de alta calidad a partir de texto.https://t.co/04XAq4rlap pic.twitter.com/JreMIBGbTF
- Meta Newsroom (@MetaNewsroom) 2 de agosto de 2023
Aunque hay algunas herramientas de conversión de texto en música que puedes probar en Internet, el modelo AudioGen es bastante único. El modelo se ha entrenado con efectos de sonido públicos y genera efectos de sonido complejos a partir de mensajes de texto. El ejemplo del blog de Meta era: "Sirenas y un motor zumbando se acercan y pasan" y sonaba muy bien. Aquí hay más Efectos de muestra AudioGen.
Ser capaz de generar efectos de sonido a partir de descripciones de texto de forma gratuita será enorme para los creadores de contenidos. Imagina hacer un clip para las redes sociales o un vídeo de Youtube y conseguir exactamente el efecto de sonido adecuado sin tener que pagar para descargarlo de un sitio web de efectos de sonido.
El modelo Encodec es probablemente la parte más emocionante de AudioCraft. Es un códec de audio basado en inteligencia artificial. Un códec es una pieza de software que toma datos y los comprime perdiendo la menor cantidad de datos posible. Si has reproducido un archivo de música MP3, habrás utilizado un códec.
Encodec elimina la mayor cantidad posible de datos del archivo de audio generado y luego utiliza AI para rellenar los huecos cuando hay que volver a reproducir el audio. El resultado es que los archivos de audio comprimidos pueden ser 10 veces más pequeños que si se almacenaran como MP3.
Meta aún no tiene un códec similar para vídeo, pero ¿te imaginas las implicaciones de comprimir vídeo y audio por un factor de 10 sin perder nada de fidelidad? Podrías liberar 90% de espacio en tu disco duro o transmitir música y vídeo 10 veces más rápido con el mismo ancho de banda.
Será interesante ver cómo utilizan los desarrolladores la herramienta de conversión de texto en audio de Meta. Parece que Meta ha entrenado sus modelos de forma responsable, pero puede que otros usuarios no compartan sus preocupaciones éticas y legales. Es de esperar que se produzca un acalorado debate sobre si la música protegida por derechos de autor es un juego limpio para el entrenamiento de la IA.
Y mientras actores y guionistas siguen en huelgaEn la actualidad, las herramientas musicales gratuitas como AudioCraft pueden hacer que músicos y artistas de efectos de sonido se unan a la línea de piquete.