Meta hat diese Woche seine generative Text-zu-Audio-KI mit dem Namen AudioCraft veröffentlicht, und die Beispiele für ihre Ergebnisse sind beeindruckend.
Im Bereich der generativen KI gab es exponentielle Entwicklungen bei der Text-, Bild- und Spracherzeugung, aber im Bereich der KI-Audioerzeugung gab es nicht viel Neues. AudioCraft ist eines der ersten Text-zu-Audio-Tools seiner Art, das zum Ausprobieren zur Verfügung steht.
Anfang des Jahres hat Google uns einen Einblick in seinen MusicLM Text-to-Music-Generator gegeben, aber wir sind jetzt 8 Monate weiter, und Sie können ihn immer noch nur ausprobieren, wenn Sie in die KI-Testküche aufgenommen werden.
Die vortrainierten Modelle von AudioCraft stehen auf GitHub zum Download bereit. Meta hofft, dass ihre Open-Source-Strategie die Akzeptanz und das Testen zur Verbesserung der Modelle fördern wird.
AudioCraft besteht aus den Modellen MusicGen, AudioGen und Encodec von Meta.
Das MusicGen-Modell wurde auf Musik trainiert, die speziell von Meta lizenziert wurde und ihr gehört, und gibt Musik nach einer Textaufforderung aus. Das Beispiel auf Metas Blog verwendet die folgende Aufforderung: "Pop-Dance-Track mit eingängigen Melodien, tropischen Percussions und peppigen Rhythmen, perfekt für den Strand".
Die Musikausgabe klingt ziemlich gut und entspricht genau der Aufforderung. Das Beispiel wurde wahrscheinlich ausgewählt, aber es ist trotzdem beeindruckend. Sie können sich anhören mehr Beispiele hier.
Heute stellen wir Ihnen AudioCraft vor, eine Familie von generativen KI-Modellen, mit denen Sie auf einfache Weise hochwertige Audio- und Musikdateien aus Text erzeugen können.https://t.co/04XAq4rlap pic.twitter.com/JreMIBGbTF
- Meta Newsroom (@MetaNewsroom) 2. August 2023
Es gibt zwar einige Text-zu-Musik-Tools, die Sie online ausprobieren können, aber das AudioGen-Modell ist ziemlich einzigartig. Das Modell wurde an öffentlichen Soundeffekten trainiert und erzeugt komplexe Soundeffekte auf der Grundlage von Textaufforderungen. Die Beispielaufforderung in Metas Blog lautete: "Sirenen und ein brummender Motor nähern sich und fahren vorbei" und klang großartig. Hier sind einige weitere AudioGen-Sample-Effekte.
Die Möglichkeit, kostenlos Soundeffekte aus Textbeschreibungen zu generieren, wird für die Ersteller von Inhalten von großer Bedeutung sein. Stellen Sie sich vor, Sie machen einen Clip für soziale Medien oder ein Youtube-Video und bekommen genau den richtigen Soundeffekt, ohne dafür zu bezahlen, ihn von einer Website für Soundeffekte herunterzuladen.
Das Encodec-Modell ist wahrscheinlich der spannendste Teil von AudioCraft. Es ist ein KI-gesteuerter Codec für Audio. Ein Codec ist eine Software, die Daten nimmt und sie komprimiert, während so wenig wie möglich der Daten verloren geht. Wenn Sie eine MP3-Musikdatei abgespielt haben, haben Sie einen Codec verwendet.
Encodec entfernt so viele Daten wie möglich aus der erzeugten Audiodatei und verwendet dann AI, um die Lücken zu füllen, wenn die Audiodatei wieder abgespielt werden muss. Das Ergebnis ist, dass die komprimierten Audiodateien 10-mal kleiner sein können, als wenn sie als MP3 gespeichert würden.
Meta hat noch keinen ähnlichen Codec für Video, aber können Sie sich vorstellen, was es bedeutet, Video und Audio um den Faktor 10 zu komprimieren, ohne dabei an Klangtreue zu verlieren? Sie könnten 90% Festplattenspeicherplatz freimachen oder Musik und Videos bei gleicher Bandbreite 10-mal schneller übertragen.
Es wird interessant sein zu sehen, wie Entwickler das Text-to-Audio-Tool von Meta einsetzen. Es scheint, dass Meta seine Modelle verantwortungsbewusst trainiert hat, aber andere Nutzer der Modelle teilen möglicherweise nicht ihre ethischen und rechtlichen Bedenken. Erwarten Sie eine hitzige Debatte darüber, ob urheberrechtlich geschützte Musik für das Training von KI geeignet ist.
Und während Schauspieler und Drehbuchautoren streiken weiterBei kostenlosen Musiktools wie AudioCraft könnten sich bald auch Musiker und Soundeffektkünstler den Streikposten anschließen.