Meta ha presentato il suo nuovo modello di traduttore AI multimodale e multilingue chiamato SeamlessM4T. Questo traduttore, primo nel suo genere, è in grado di tradurre e trascrivere il parlato e il testo in un massimo di 100 lingue.
Meta ha lavorato su una serie di prodotti per il riconoscimento e la traduzione linguistica, ma con SeamlessM4T ha integrato più input e output in un unico modello.
Secondo Annuncio di rilascio di Meta, SeamlessM4T supporta:
- Riconoscimento vocale per quasi 100 lingue
- Traduzione vocale da un testo all'altro per quasi 100 lingue di ingresso e di uscita
- Traduzione vocale, che supporta quasi 100 lingue di ingresso e 36 lingue di uscita (compreso l'inglese).
- Traduzione da testo a testo per quasi 100 lingue
- Traduzione da testo a voce, con supporto di quasi 100 lingue di ingresso e 35 (compreso l'inglese) lingue di uscita
La traduzione vocale è probabilmente una delle funzionalità più interessanti del modello. La possibilità di registrare un discorso nella propria lingua e poi farlo parlare in una lingua diversa è incredibile. Immaginate quanto sarebbe utile quando si viaggia in un paese straniero.
Nel 2022 Meta ha rilasciato il suo traduttore testo-testo No Language Left Behind, che supporta 200 lingue. Questo modello supportava 55 lingue africane, molte delle quali erano tradotte molto male da altri strumenti.
Alla fine dell'anno scorso, Meta ha anche pubblicato un esempio di un nuovo approccio alla traduzione vocale di lingue con scarse risorse. Meta ha utilizzato il suo Universal Speech Translator per tradurre l'Hokkien, una lingua parlata senza sistema di scrittura.
All'inizio di quest'anno ha continuato a concentrarsi sulle lingue non servite con il modello Massively Multilingual Speech, che fornisce il riconoscimento vocale automatico di oltre 1.100 lingue.
SeamlessM4T è un modello unificato che si basa su queste capacità individuali per combinarle in un unico modello leggero.
Vi presentiamo SeamlessM4T, il primo modello di traduzione multimodale multilingue all-in-one.
Questo singolo modello è in grado di eseguire operazioni di speech-to-text, speech-to-speech, traduzione da testo a testo e riconoscimento vocale per un massimo di 100 lingue, a seconda del compito.
Dettagli ⬇️
- Meta AI (@MetaAI) 22 agosto 2023
I dati di formazione presentano problemi di bias e di tossicità
Meta afferma che il suo modello è stato addestrato su "dati provenienti da archivi pubblici di dati web (decine di miliardi di frasi) e di parlato (4 milioni di ore)".
Non ha specificato la provenienza dei dati di addestramento, ma ha detto che provenivano da dati con licenza e open-source non protetti da copyright.
Meta ha riconosciuto che il modello affronta gli stessi "rischi intrinseci" di parzialità e tossicità di altri modelli di intelligenza artificiale. Inevitabilmente i pregiudizi delle diverse culture si esprimono nell'audio registrato e vengono trasferiti al modello durante il processo di addestramento.
Per eliminare i pregiudizi, Meta ha esteso il suo set di dati testuali Multilingual HolisticBias al parlato. Questo fa parte del suo sforzo di correggere i casi in cui il modello può "favorire ingiustamente un genere e a volte non rispettare gli stereotipi di genere".
Un'altra sfida che Meta deve affrontare è quella di fornire dei guardrail per contenere la tossicità della produzione. La tossicità si riferisce al fatto che le traduzioni errate potrebbero "incitare all'odio e alla violenza", bestemmie o abusi contro un individuo o un gruppo".
Meta ha utilizzato il suo "classificatore di tossicità altamente multilingue" per verificare la presenza di tossicità negli input e negli output, in modo che SeamlessM4T abbia meno probabilità di offendere qualcuno.
Probabilmente verranno comunque fuori delle traduzioni imbarazzanti, dato che il team che ha sviluppato il modello ammette che "si generalizza eccessivamente alle forme maschili quando si traduce da termini neutri". Scommetto che se ci si sforza abbastanza si può fargli dire qualcosa di sconcio.
Se desiderate provarlo, date un'occhiata al sito demo qui. È possibile registrare una frase, selezionare tre lingue diverse e pochi secondi dopo ascoltare le traduzioni vocali. Davvero impressionante.
Nel descrivere le sue ambizioni con SeamlessM4T, Meta ha fatto riferimento al pesce Babele della Guida galattica per gli autostoppisti. Non è ancora in grado di tradurre in tempo reale, ma probabilmente è molto più comodo da usare che infilarsi un pesce nell'orecchio.