Meta hat enthüllt Sprachboxein modernes generatives KI-Modell für Sprache. Es funktioniert ähnlich wie Textgeneratoren wie ChatGPT, erzeugt aber Audio- statt Textantworten.
Voicebox kann Audio von Grund auf neu generieren oder vorhandenes Audio modifizieren. Es ist ein äußerst flexibles Tool, das einen 2-Sekunden-Audioclip der Stimme einer Person nehmen und daraus Sprache in einer anderen Sprache erzeugen kann, wobei die Intonation der Stimme erhalten bleibt.
Dies wird mit der Erzeugung von Text-to-Speech kombiniert. Sie können also Ihre Stimme in die KI "einfügen" und sie für die Text-zu-Sprache-Generierung mit Ihrer eigenen Stimme verwenden. Wenn Sie z. B. im Urlaub sind und auf Englisch, Französisch, Spanisch, Deutsch, Polnisch oder Portugiesisch kommunizieren müssen, tippen Sie Ihre Nachricht einfach in Voicebox ein, und sie wird für Sie sprechen.
Das Modell wurde mit über 50.000 Stunden aufgezeichneter Sprache und Transkripten in 6 Sprachen trainiert: Englisch, Französisch, Spanisch, Deutsch, Polnisch und Portugiesisch. Es ist wesentlich schneller und genauer als ähnliche audiozentrierte KIs wie VALL-E.
Hier sind die 4 Hauptanwendungen von Voicebox:
- Text-zu-Sprache-Synthese im Kontext: Voicebox kann aus Text realistischen Ton erzeugen. Damit könnten mehrsprachige virtuelle Assistenten geschaffen werden, die es Menschen mit Sprach- und Hörproblemen ermöglichen, sich natürlicher zu unterhalten.
- Sprachübergreifender Stiltransfer: Die KI kann Text in 6 verschiedene Sprachen übersetzen und ermöglicht so eine authentische und natürliche mehrsprachige Kommunikation.
- Entrauschung und Bearbeitung von Sprache: Voicebox kann Sprache erzeugen, um Segmente in Audioaufnahmen zu bearbeiten. Zum Beispiel kann es Teile der Sprache, die durch Rauschen beschädigt wurden, neu synthetisieren.
- Vielfältige Sprachproben: Voicebox ist in der Lage, repräsentative Sprache in 6 Sprachen zu erzeugen, was sich ideal für die Generierung synthetischer Daten für andere Sprach- und Audiomodelle eignet und beeindruckende Ergebnisse liefert. Spracherkennungsmodelle, die auf mit Voicebox generierter synthetischer Sprache trainiert wurden, schneiden nahezu gleich gut ab wie Modelle, die auf echter Sprache trainiert wurden, mit einer marginalen Verschlechterung der Fehlerrate von 1%, was einen gewaltigen Sprung gegenüber der bei ähnlichen Modellen beobachteten Verschlechterung von 45 bis 70% darstellt.
Meta hat Voicebox noch nicht veröffentlicht, da sie Bedenken wegen Missbrauchs hegen. Sie haben jedoch ein ausführliches Papier über das Modell veröffentlicht, hier erhältlich.
Es gibt zwar noch keine offizielle Schätzung, wann die Menschen Voicebox nutzen können, aber Meta sagt, dass das Tool den Urhebern helfen wird, Audiospuren zu bearbeiten, die Kommunikation mit sehbehinderten Menschen zu verbessern und es den Menschen zu ermöglichen, jede Fremdsprache mit ihrer eigenen Stimme zu sprechen.