Stability AI a annoncé la sortie de son générateur audio AI et affirme qu'il offre des performances de premier ordre.
Au cours des derniers mois, nous avons vu un certain nombre de générateurs audio d'IA avec des performances variables, mais Stable Audio semble avoir mis la barre plus haut.
Avec Stable Audio, vous pouvez saisir un texte et générer de la musique ou de l'audio en fonction de ce texte. Nous avons déjà vu ce type de fonctionnalité chez Google avec son MusicLM et chez Meta avec ses produits AudioCraft.
MusicLM n'est encore disponible que dans la cuisine d'essai de Google et génère de la musique à 24 kHz. Meta's AudioCraft est vraiment impressionnant, mais il ne génère de la musique qu'à 32 kHz.
Stable Audio est le premier générateur texte-audio déployé qui produit de l'audio à 44,1 kHz, soit la fréquence d'échantillonnage de la musique de "qualité CD".
L'autre caractéristique impressionnante de Stable Audio est la longueur des pistes qu'il produit. La plupart des générateurs audio d'IA produisent des morceaux de musique plus courts qui se répètent ou se perdent rapidement. Stable Audio produit une musique plus nuancée d'environ 90 secondes sans perdre en cohérence.
Aujourd'hui, nous sommes ravis de lancer Stable Audio, notre premier produit d'IA pour la musique et la génération de sons !
Essayez-le ici gratuitement ! #stabilitéAI #stableaudio #nouvelle annonce
https://t.co/pRK3Qs9Fak pic.twitter.com/cZfbK1mZYA- Stability AI (@StabilityAI) 13 septembre 2023
Vous pouvez consulter quelques échantillons de l'audio généré ici.
Voici un exemple de piste que j'ai pu générer à l'aide de l'outil avec l'invite suivante :
"Post-Rock, Guitares, Batterie, Basse, Cordes, Euphorique, Ascendant, Moody, Fluide, Brut, Epique, Sentimental, 125 BPM"
Cela semble plutôt bien, en fait.
Le modèle repose sur la technique de diffusion latente utilisée par Stability pour ses autres produits d'IA générative. Il utilise des codecs astucieux pendant déduction qui permet de générer 95 secondes de musique à 44,1 kHz en une seconde à l'aide d'un GPU Nvidia A100.
Questions relatives à la formation et aux droits d'auteur
Stability AI a produit Stable Audio en coopération avec Harmonai, un laboratoire de recherche sur l'apprentissage profond qui se concentre sur la création de modèles audio génératifs libres. L'équipe audio de Stability AI a créé un nouveau modèle basé sur son précédent modèle Dance Diffusion, que HarmonAI a entraîné.
L'ensemble de données utilisé pour former Stable Audio provient d'AudioSparx, qui a fourni environ 800 000 chansons provenant des artistes indépendants qu'elle représente.
Les artistes ont eu la possibilité de choisir d'exclure leurs œuvres de l'ensemble des données, ce qu'environ 10% auraient fait.
Les artistes qui ont choisi d'inclure leurs œuvres dans l'ensemble de données bénéficieront de l'accord de partage des bénéfices conclu entre Stability AI et AudioSparx.
Il n'y a pas de grands artistes dans l'ensemble de données, mais Stable Audio ne vous empêche pas d'ajouter le nom d'un artiste ou d'un groupe dans votre invite.
Bien que la bibliothèque AudioSparx ne contienne pas d'œuvres d'un groupe comme AC/DC, par exemple, elle contient de nombreuses œuvres d'autres groupes. musique décrite comme étant dans le style d'AC/DC.
Il n'est toujours pas possible de protéger les droits d'auteur de la musique générée par un outil d'IA. Les conditions d'utilisation précisent que vous "êtes responsable de la légalité de tout le contenu" créé à l'aide de Stable Audio.
Les conditions stipulent en outre que "vous déclarez et garantissez que vous possédez tous les droits, titres et intérêts nécessaires à ces messages, y compris, mais sans s'y limiter, tous les droits d'auteur et droits de publicité nécessaires qu'ils contiennent".
N'ajoutez donc pas "Metallica" à votre message. Ces gars-là font de la bonne musique, mais ils aiment aussi les procès sur les droits d'auteur.
Combien coûte Stable Audio ?
Vous pouvez essayez Stable Audio mais vous serez limité à la génération de 20 pistes non-commercialisables par mois, chacune limitée à une durée de 20 secondes. De plus, leurs serveurs sont actuellement débordés, ce qui fait qu'il faut un certain temps pour générer une piste.
Nous sommes ravis de constater que la demande pour le lancement de Stable Audio aujourd'hui n'a jamais été aussi forte ! Mais nos serveurs sont maintenant à pleine capacité, il se peut donc que vous ne puissiez pas accéder au produit. Si c'est le cas, nous vous demandons de revenir dans 24 heures pour réessayer.
En attendant, nous travaillons dur...
- Stability AI (@StabilityAI) 13 septembre 2023
Un abonnement Pro vous coûtera $11.99 par mois et vous permettra de générer 500 pistes commercialisables d'une durée maximale de 90 secondes chaque mois.
Les crédits de génération non utilisés ne sont pas reportés sur le mois suivant.
Si vous avez une application, un site web ou un logiciel qui compte plus de 100 000 utilisateurs, vous devez contacter Stability pour obtenir le prix de leur plan d'entreprise.
Stability indique qu'elle "ouvrira bientôt un modèle de génération de musique, formé sur des données différentes".
Avec son produit Stable Audio, Stability AI a peut-être enfin trouvé un moyen de faire gagner de l'argent à ses investisseurs.