Stability AI hat die Veröffentlichung seines KI-Audiogenerators bekannt gegeben und behauptet, dass dieser eine erstklassige Leistung bietet.
In den letzten Monaten haben wir eine Reihe von KI-Audio-Generatoren mit unterschiedlicher Leistung gesehen, aber Stable Audio scheint die Messlatte höher gelegt zu haben.
Mit Stable Audio können Sie eine Texteingabe machen, und das Programm generiert Musik oder Audio auf der Grundlage dieser Eingabe. Diese Art von Funktionalität kennen wir bereits von Google mit MusicLM und Meta's AudioCraft Produkten.
MusicLM ist nach wie vor nur in Googles Testküche verfügbar und erzeugt Musik mit 24 kHz. Metas AudioCraft ist wirklich beeindruckend, aber es erzeugt nur Musik mit 32 kHz.
Stable Audio ist der erste Text-zu-Audio-Generator, der Audio mit 44,1 kHz ausgibt, der Abtastrate von Musik in "CD-Qualität".
Ein weiteres beeindruckendes Merkmal von Stable Audio ist die Länge der produzierten Tracks. Die meisten KI-Audio-Generatoren produzieren kürzere Musikstücke, die sich schnell wiederholen oder ihren Weg verlieren. Stable Audio produziert nuanciertere Musik von etwa 90 Sekunden Länge, ohne dabei an Kohärenz zu verlieren.
Wir freuen uns, heute Stable Audio, unser erstes KI-Produkt für Musik und Klangerzeugung, vorstellen zu können!
Probieren Sie es hier kostenlos aus! #stabilitätAI #stableaudio #Neuankündigung
https://t.co/pRK3Qs9Fak pic.twitter.com/cZfbK1mZYA- Stabilität AI (@StabilityAI) 13. September 2023
Sie können sich einige Hörproben des erzeugten Tons hier.
Hier ist ein Beispiel für einen Track, den ich mit dem Tool mit der folgenden Aufforderung erstellen konnte:
"Post-Rock, Gitarren, Schlagzeug, Bass, Streicher, Euphorisch, Erhebend, Stimmungsvoll, Fließend, Roh, Episch, Sentimental, 125 BPM"
Das klingt eigentlich ganz gut.
Das Modell basiert auf der latenten Diffusionstechnik von Stability, die das Unternehmen auch für seine anderen generativen KI-Produkte verwendet. Es verwendet einige clevere Codecs während Inferenz die es angeblich ermöglicht, 95 Sekunden Musik mit 44,1 kHz in 1 Sekunde mit einem Nvidia A100-Grafikprozessor zu erzeugen.
Fragen zur Ausbildung und zum Urheberrecht
Stability AI produzierte Stable Audio in Zusammenarbeit mit Harmonai, einem Deep-Learning-Forschungslabor, das sich auf die Erstellung von generativen Open-Source-Audiomodellen konzentriert. Das Audio-Team von Stability AI hat ein neues Modell erstellt, das auf dem früheren Dance Diffusion-Modell basiert, das HarmonAI trainiert hat.
Der Datensatz, der für das Training von Stable Audio verwendet wurde, stammt von AudioSparx, das rund 800.000 Songs der von ihm vertretenen unabhängigen Musikkünstler zur Verfügung stellte.
Den Künstlern wurde die Möglichkeit gegeben, ihre Werke aus dem Datensatz auszuschließen, was etwa 10% getan haben sollen.
Künstler, die sich für die Aufnahme ihrer Werke in den Datensatz entschieden haben, werden an der Gewinnbeteiligung beteiligt, die Stability AI und AudioSparx vereinbart haben.
Der Datensatz enthält keine großen Künstler, aber Stable Audio hält Sie nicht davon ab, einen Künstler- oder Bandnamen in Ihre Eingabeaufforderung einzufügen.
Die AudioSparx-Bibliothek enthält zwar keine Werke von Bands wie z.B. AC/DC, aber sie enthält eine Menge von Musik, die im Stil von AC/DC beschrieben wird.
Sie können die Musik, die Sie mit einem KI-Tool erzeugen, immer noch nicht urheberrechtlich schützen. Und in den Nutzungsbedingungen heißt es, dass Sie "für die Rechtmäßigkeit aller mit Stable Audio erstellten Inhalte verantwortlich sind".
In den Bedingungen heißt es weiter: "Sie versichern und garantieren, dass Sie alle erforderlichen Rechte, Titel und Interessen an diesen Prompts besitzen, einschließlich, aber nicht beschränkt auf alle erforderlichen Urheber- und Werberechte, die darin enthalten sind."
Fügen Sie also vielleicht nicht "Metallica" zu Ihrer Aufforderung hinzu. Diese Jungs machen zwar tolle Musik, aber sie lieben auch eine gute Urheberrechtsklage.
Wie viel kostet Stable Audio?
Sie können Probieren Sie Stable Audio ist kostenlos, aber Sie können nur 20 nicht-kommerzielle Tracks pro Monat erstellen, die jeweils auf eine Länge von 20 Sekunden begrenzt sind. Außerdem sind die Server im Moment völlig überlastet, so dass es eine Weile dauert, bis ein Track erstellt ist.
Wir sind begeistert, dass die Nachfrage nach unserem Stable Audio-Produkt, das heute auf den Markt kommt, so groß ist wie nie zuvor! Aber unsere Server sind jetzt voll ausgelastet, so dass Sie möglicherweise nicht in der Lage sein, das Produkt zugreifen. Wenn Sie nicht in der Lage sind, bitten wir Sie, es in 24 Stunden noch einmal zu versuchen.
In der Zwischenzeit arbeiten wir hart daran...
- Stabilität AI (@StabilityAI) 13. September 2023
Ein Pro-Abonnement kostet Sie $11,99 pro Monat, mit dem Sie jeden Monat 500 kommerziell nutzbare Tracks von bis zu 90 Sekunden Länge erstellen können.
Ungenutzte Generationsgutschriften werden nicht auf den nächsten Monat übertragen, d. h., sie können entweder genutzt oder verloren werden.
Wenn Sie eine Anwendung, Website oder Software mit mehr als 100.000 Nutzern haben, müssen Sie sich an Stability wenden, um die Preise für den Enterprise-Plan zu erfahren.
Stability kündigt an, dass es "bald ein Modell zur Musikgenerierung veröffentlichen wird, das auf anderen Daten trainiert wurde".
Mit seinem Produkt Stable Audio hat Stability AI vielleicht endlich einen Weg gefunden, Geld für seine Investoren zu verdienen.