Meta veröffentlicht den ersten multimodalen KI-Übersetzer seiner Art

23. August 2023

Mehrsprachiger AI-Übersetzer

Meta hat sein neues multimodales mehrsprachiges KI-Übersetzermodell namens SeamlessM4T veröffentlicht. Dieser erste Übersetzer seiner Art kann Sprache und Text in bis zu 100 Sprachen übersetzen und transkribieren.

Meta hat an einer Reihe von Spracherkennungs- und Übersetzungsprodukten gearbeitet, aber mit SeamlessM4T hat es mehrere Eingaben und Ausgaben in ein einziges Modell integriert. 

Nach Angaben von Metas VeröffentlichungsankündigungSteglosM4T unterstützt:

  • Spracherkennung für fast 100 Sprachen
  • Sprache-zu-Text-Übersetzung für fast 100 Eingabe- und Ausgabesprachen
  • Speech-to-Speech-Übersetzung, die fast 100 Eingabesprachen und 36 Ausgabesprachen (einschließlich Englisch) unterstützt
  • Text-zu-Text-Übersetzung für fast 100 Sprachen
  • Text-zu-Sprache-Übersetzung, die fast 100 Eingabesprachen und 35 Ausgabesprachen (einschließlich Englisch) unterstützt

Die Sprache-zu-Sprache-Übersetzung ist wahrscheinlich eine der interessantesten Funktionen des Modells. Die Möglichkeit, Sprache in der eigenen Sprache aufzuzeichnen und sie dann in einer anderen Sprache sprechen zu lassen, ist erstaunlich. Stellen Sie sich vor, wie nützlich dies auf Reisen in einem fremden Land sein könnte.

Im Jahr 2022 veröffentlichte Meta seinen Text-zu-Text-Übersetzer No Language Left Behind, der 200 Sprachen unterstützt. Dieses Modell unterstützte 55 afrikanische Sprachen, von denen viele mit anderen Tools nur sehr schlecht übersetzt werden konnten.

Ende letzten Jahres veröffentlichte Meta auch ein Beispiel für einen neuen Ansatz zur Sprachübersetzung von Sprachen mit geringen Ressourcen. Mit seinem Universal Speech Translator übersetzte es Hokkien, eine gesprochene Sprache ohne Schriftsystem.

Anfang dieses Jahres hat das Unternehmen seinen Fokus auf unterversorgte Sprachen mit seinem Massively Multilingual Speech-Modell fortgesetzt, das eine automatische Spracherkennung für mehr als 1.100 Sprachen bietet.

SeamlessM4T ist ein vereinheitlichtes Modell, das auf diesen einzelnen Modellfähigkeiten aufbaut und sie zu einem leichtgewichtigen Modell kombiniert.

 

Trainingsdaten sind mit Verzerrungen und Toxizität behaftet

Meta sagt, dass das Modell auf "Daten aus öffentlich zugänglichen Beständen von Webdaten (zehn Milliarden Sätze) und Sprache (4 Millionen Stunden)" trainiert wurde.

Es wurde nicht angegeben, woher die Trainingsdaten stammten, sondern dass sie aus lizenzierten und quelloffenen Daten stammten, die nicht urheberrechtlich geschützt waren.

Meta räumte ein, dass das Modell denselben "inhärenten Risiken" der Voreingenommenheit und Toxizität ausgesetzt ist wie andere KI-Modelle auch. Die Voreingenommenheit in verschiedenen Kulturen kommt unweigerlich in den aufgezeichneten Audiodaten zum Ausdruck und wird während des Trainingsprozesses auf das Modell übertragen. 

Um Verzerrungen zu beseitigen, hat Meta seinen mehrsprachigen HolisticBias-Textdatensatz so erweitert, dass er auch Sprache berücksichtigt. Dies ist Teil der Bemühungen, zu korrigieren, wenn das Modell "unfairerweise ein Geschlecht bevorzugt und manchmal auf Geschlechterstereotypen zurückgreift".

Eine weitere Herausforderung, der sich Meta stellen muss, ist die Bereitstellung von Leitplanken zur Eindämmung der Toxizität des Outputs. Toxizität bezieht sich darauf, dass falsche Übersetzungen "zu Hass und Gewalt anstiften" können, Beschimpfungen oder Beleidigungen gegen eine Person oder eine Gruppe".

Meta hat seinen "hochgradig mehrsprachigen Toxizitätsklassifikator" eingesetzt, um Eingaben und Ausgaben auf Toxizität zu prüfen, so dass SeamlessM4T mit geringerer Wahrscheinlichkeit jemanden beleidigen wird.

Es wird wahrscheinlich immer noch einige unangenehme Übersetzungen liefern, da das Team, das das Modell entwickelt hat, zugibt, dass es "bei der Übersetzung von neutralen Begriffen zu sehr auf männliche Formen verallgemeinert." Ich wette, wenn man sich genug Mühe gibt, kann man es dazu bringen, etwas Unanständiges zu sagen.

Wenn Sie es ausprobieren möchten, schauen Sie sich die Demo hier. Sie können einen Satz aufnehmen, drei verschiedene Sprachen auswählen und einige Sekunden später die gesprochenen Übersetzungen hören. Sehr beeindruckend.

Bei der Beschreibung seiner Ambitionen mit SeamlessM4T verwies Meta auf den Babel-Fisch aus Per Anhalter durch die Galaxis. Es ist noch nicht in der Lage, in Echtzeit zu übersetzen, aber es ist wahrscheinlich viel bequemer, als sich einen Fisch ins Ohr zu stecken.

Join The Future


HEUTE ABONNIEREN

Klar, prägnant, umfassend. Behalten Sie den Überblick über KI-Entwicklungen mit DailyAI

Eugene van der Watt

Eugene kommt aus der Elektronikbranche und liebt alles, was mit Technik zu tun hat. Wenn er eine Pause vom Konsum von KI-Nachrichten einlegt, findet man ihn am Snookertisch.

×

KOSTENLOSES PDF EXKLUSIV
Mit DailyAI immer einen Schritt voraus

Melden Sie sich für unseren wöchentlichen Newsletter an und erhalten Sie exklusiven Zugang zum neuesten eBook von DailyAI: 'Mastering AI Tools: Ihr Leitfaden für mehr Produktivität im Jahr 2024".

*Mit der Anmeldung zu unserem Newsletter akzeptieren Sie unsere Datenschutzbestimmungen und unsere Bedingungen und Konditionen