Meta a publié cette semaine son IA générative texte-audio appelée AudioCraft et les exemples de ses résultats sont impressionnants.
L'espace de l'IA générative a connu un développement exponentiel dans la génération de textes, d'images et de voix, mais nous n'avons pas eu beaucoup de nouvelles dans l'espace de la génération audio de l'IA. AudioCraft est l'un des premiers outils de conversion de texte en audio de ce type qui soit disponible pour être testé correctement.
Au début de l'année, Google nous a donné un aperçu de son générateur de texte musical MusicLM, mais huit mois se sont écoulés et vous ne pouvez encore l'essayer que si vous êtes accepté dans la cuisine d'essai de l'IA.
Les modèles pré-entraînés d'AudioCraft peuvent être téléchargés sur GitHub et Meta espère que sa stratégie de source ouverte favorisera l'adoption et les essais pour améliorer les modèles.
AudioCraft est composé des modèles MusicGen, AudioGen et Encodec de Meta.
Le modèle MusicGen a été entraîné sur de la musique qui était spécifiquement sous licence et détenue par Meta et produit de la musique à partir d'une invite textuelle. L'exemple sur le blog de Meta utilisait l'invite suivante : "Morceau de danse pop avec des mélodies accrocheuses, des percussions tropicales et des rythmes entraînants, parfait pour la plage"
La musique produite est assez bonne et correspond bien à l'invite. L'échantillon a probablement été choisi avec soin, mais il est néanmoins impressionnant. Vous pouvez écouter plus d'échantillons ici.
🎵 Aujourd'hui, nous partageons des détails sur AudioCraft, une famille de modèles d'IA générative qui vous permet de générer facilement de l'audio et de la musique de haute qualité à partir de texte.https://t.co/04XAq4rlap pic.twitter.com/JreMIBGbTF
- Salle de presse Meta (@MetaNewsroom) 2 août 2023
Bien qu'il existe quelques outils de conversion de texte en musique que vous pouvez essayer en ligne, le modèle AudioGen est assez unique. Le modèle a été entraîné sur des effets sonores publics et génère des effets sonores complexes à partir d'invites textuelles. L'exemple d'invite sur le blog de Meta était le suivant : "Des sirènes et un moteur vrombissant s'approchent et passent" et sonnait très bien. En voici d'autres Effets d'échantillonnage AudioGen.
La possibilité de générer gratuitement des effets sonores à partir de descriptions textuelles sera un atout majeur pour les créateurs de contenu. Imaginez que vous fassiez un clip pour les médias sociaux ou une vidéo Youtube et que vous obteniez exactement le bon effet sonore sans avoir à payer pour le télécharger à partir d'un site web d'effets sonores.
Le modèle Encodec est probablement la partie la plus intéressante d'AudioCraft. Il s'agit d'un codec audio alimenté par l'IA. Un codec est un logiciel qui prend des données et les compresse en perdant le moins de données possible. Si vous avez lu un fichier musical MP3, vous avez utilisé un codec.
Encodec supprime autant de données que possible du fichier audio généré et utilise ensuite AI pour combler les lacunes lorsque l'audio doit être réécouté. Le résultat est que les fichiers audio compressés peuvent être 10 fois plus petits que s'ils étaient stockés sous forme de MP3.
Meta ne dispose pas encore d'un codec similaire pour la vidéo, mais pouvez-vous imaginer les implications d'une compression vidéo et audio d'un facteur 10 sans perte de fidélité ? Vous pourriez libérer 90% d'espace sur votre disque dur ou diffuser de la musique et des vidéos 10 fois plus vite avec la même bande passante.
Il sera intéressant de voir comment les développeurs utiliseront l'outil de conversion de texte en audio de Meta. Il semble que Meta ait formé ses modèles de manière responsable, mais les autres utilisateurs des modèles pourraient ne pas partager leurs préoccupations éthiques et juridiques. Il faut s'attendre à des débats animés sur la question de savoir si la musique protégée par des droits d'auteur peut être utilisée pour l'entraînement de l'IA.
Et si les acteurs et les scénaristes poursuivent leur grèveLes outils de musique gratuits comme AudioCraft pourraient bientôt inciter les musiciens et les artistes d'effets sonores à rejoindre le piquet de grève.