Metas MusicGen: Open-Source-KI-Modell für Text-zu-Musik-Generierung

Juni 13, 2023

Meta hat die Markteinführung von MusicGen angekündigt, seiner jüngsten Entwicklung in den Bereichen Musik und künstliche Intelligenz (KI). 

Dieses Open-Source-KI-Modell wurde entwickelt, um Musik mit Hilfe von Text zu erzeugen und bietet eine unverwechselbare und fantasievolle Methode der Musikproduktion.

Eine kürzlich veröffentlichte Forschungsarbeit beschreibt, wie MusicGen die Erstellung von Musik auf einzigartige Weise angeht. Es antizipiert den nächsten Teil der Musik anstelle des nächsten Zeichens in einem Satz und schafft so logische und organisierte musikalische Kreationen.

Unter Verwendung des EnCodec Audio-Tokenizers von Meta zerlegt MusicGen Audiodaten als Teil des Trainingsprozesses. 

Ähnlich wie Googles MusicLM nutzt MusicGen 20.000 Stunden lizenzierter Musik von Shutterstock, Pond5 und eine riesige Bibliothek hochwertiger Tracks aus internen Quellen. MusicGen verfügt über eine große Vielfalt an Musikgenres und Kompositionen.

MusicGen kann sowohl auf Text- als auch auf Musikanweisungen reagieren. Es kann neue Musikkompositionen erzeugen, die einen bestimmten Stil repräsentieren, indem es die Melodie einer Audiodatei mit einer Textanweisung, die diesen Stil beschreibt, verschmilzt. 

Die Fähigkeit, Melodien in verschiedenen Genres zu hören oder die genaue Kontrolle über die Orientierung an der Melodie bietet MusicGen nicht - stattdessen gibt MusicGen eine kreative Interpretation.

Die Forscher testeten Modellgrößen von 300 Millionen bis 3,3 Milliarden Parametern. Obwohl das 1,5-Milliarden-Parameter-Modell von den menschlichen Bewertern am besten bewertet wurde, produzierten größere Modelle oft eine bessere Audioqualität. Die Genauigkeit der Text-Audio-Umwandlung des Modells mit 3,3 Milliarden Parametern war außergewöhnlich.

MusicGen übertrifft konkurrierende Musikmodelle wie Riffusion, Mousai, MusicLM und Noise2Music sowohl in objektiven als auch in willkürlichen Messungen.

Sie beweist, dass sie die Kompatibilität von Musik und Text sowie die Glaubwürdigkeit der Komposition hervorragend beurteilen kann.

Musikbeispiele entdecken hier sowie Vergleiche zwischen MusicGen und Konkurrenten wie MusicLM von Google.

Meta hat den Code und die Modelle als Open Source auf folgender Website zur Verfügung gestellt Githubwobei eine kommerzielle Nutzung zulässig ist. Umarmungsgesicht hat eine Demonstration zugänglich.

Join The Future


HEUTE ABONNIEREN

Klar, prägnant, umfassend. Behalten Sie den Überblick über KI-Entwicklungen mit DailyAI

Jay Parmar

Jay ist technischer Autor und hat einen Abschluss in Informatik. Er ist ein langjähriger KI- und ML-Enthusiast und schreibt für verschiedene Plattformen wie HashDork und TutorialsPoint. Außerhalb der Arbeitszeit vereinfacht Jay Technik und arbeitet freiberuflich.

×

KOSTENLOSES PDF EXKLUSIV
Mit DailyAI immer einen Schritt voraus

Melden Sie sich für unseren wöchentlichen Newsletter an und erhalten Sie exklusiven Zugang zum neuesten eBook von DailyAI: 'Mastering AI Tools: Ihr Leitfaden für mehr Produktivität im Jahr 2024".

*Mit der Anmeldung zu unserem Newsletter akzeptieren Sie unsere Datenschutzbestimmungen und unsere Bedingungen und Konditionen