Meta lance son générateur de texte audio AudioCraft

Meta a publié cette semaine son IA générative texte-audio appelée AudioCraft et les exemples de ses résultats sont impressionnants.

L'espace de l'IA générative a connu un développement exponentiel dans la génération de textes, d'images et de voix, mais nous n'avons pas eu beaucoup de nouvelles dans l'espace de la génération audio de l'IA. AudioCraft est l'un des premiers outils de conversion de texte en audio de ce type qui soit disponible pour être testé correctement.

Au début de l'année, Google nous a donné un aperçu de son générateur de texte musical MusicLM, mais huit mois se sont écoulés et vous ne pouvez encore l'essayer que si vous êtes accepté dans la cuisine d'essai de l'IA.

Les modèles pré-entraînés d'AudioCraft peuvent être téléchargés sur GitHub et Meta espère que sa stratégie de source ouverte favorisera l'adoption et les essais pour améliorer les modèles.

AudioCraft est composé des modèles MusicGen, AudioGen et Encodec de Meta.

Le modèle MusicGen a été entraîné sur de la musique qui était spécifiquement sous licence et détenue par Meta et produit de la musique à partir d'une invite textuelle. L'exemple sur le blog de Meta utilisait l'invite suivante : "Morceau de danse pop avec des mélodies accrocheuses, des percussions tropicales et des rythmes entraînants, parfait pour la plage"

La musique produite est assez bonne et correspond bien à l'invite. L'échantillon a probablement été choisi avec soin, mais il est néanmoins impressionnant. Vous pouvez écouter plus d'échantillons ici.

🎵 Aujourd'hui, nous partageons des détails sur AudioCraft, une famille de modèles d'IA générative qui vous permet de générer facilement de l'audio et de la musique de haute qualité à partir de texte.https://t.co/04XAq4rlap pic.twitter.com/JreMIBGbTF

- Salle de presse Meta (@MetaNewsroom) 2 août 2023

Bien qu'il existe quelques outils de conversion de texte en musique que vous pouvez essayer en ligne, le modèle AudioGen est assez unique. Le modèle a été entraîné sur des effets sonores publics et génère des effets sonores complexes à partir d'invites textuelles. L'exemple d'invite sur le blog de Meta était le suivant : "Des sirènes et un moteur vrombissant s'approchent et passent" et sonnait très bien. En voici d'autres Effets d'échantillonnage AudioGen.

La possibilité de générer gratuitement des effets sonores à partir de descriptions textuelles sera un atout majeur pour les créateurs de contenu. Imaginez que vous fassiez un clip pour les médias sociaux ou une vidéo Youtube et que vous obteniez exactement le bon effet sonore sans avoir à payer pour le télécharger à partir d'un site web d'effets sonores.

Le modèle Encodec est probablement la partie la plus intéressante d'AudioCraft. Il s'agit d'un codec audio alimenté par l'IA. Un codec est un logiciel qui prend des données et les compresse en perdant le moins de données possible. Si vous avez lu un fichier musical MP3, vous avez utilisé un codec.

Encodec supprime autant de données que possible du fichier audio généré et utilise ensuite AI pour combler les lacunes lorsque l'audio doit être réécouté. Le résultat est que les fichiers audio compressés peuvent être 10 fois plus petits que s'ils étaient stockés sous forme de MP3.

Meta ne dispose pas encore d'un codec similaire pour la vidéo, mais pouvez-vous imaginer les implications d'une compression vidéo et audio d'un facteur 10 sans perte de fidélité ? Vous pourriez libérer 90% d'espace sur votre disque dur ou diffuser de la musique et des vidéos 10 fois plus vite avec la même bande passante.

Il sera intéressant de voir comment les développeurs utiliseront l'outil de conversion de texte en audio de Meta. Il semble que Meta ait formé ses modèles de manière responsable, mais les autres utilisateurs des modèles pourraient ne pas partager leurs préoccupations éthiques et juridiques. Il faut s'attendre à des débats animés sur la question de savoir si la musique protégée par des droits d'auteur peut être utilisée pour l'entraînement de l'IA.

Et si les acteurs et les scénaristes poursuivent leur grèveLes outils de musique gratuits comme AudioCraft pourraient bientôt inciter les musiciens et les artistes d'effets sonores à rejoindre le piquet de grève.

Meta lance son générateur de texte audio AudioCraft

Rejoindre l'avenir

Eugène van der Watt

ARTICLES ASSOCIÉS

AI May Soon Help You Understand What Your Pet Is Trying to Say

Netflix Adds ChatGPT-Powered AI to Stop You From Scrolling Forever

New Skechers AI Store Assistant Rates Outfit and Suggests What to Buy

Ferrari Just Launched an AI App That Lets Fans Experience F1 Like Never Before

Meta lance son générateur de texte audio AudioCraft

Rejoindre l'avenir

Eugène van der Watt

ARTICLES ASSOCIÉS

AI May Soon Help You Understand What Your Pet Is Trying to Say

Netflix Adds ChatGPT-Powered AI to Stop You From Scrolling Forever

New Skechers AI Store Assistant Rates Outfit and Suggests What to Buy

Ferrari Just Launched an AI App That Lets Fans Experience F1 Like Never Before

PDF GRATUIT EXCLUSIFGardez une longueur d'avance avec DailyAI

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI