Meta rilascia il primo traduttore AI multimodale del suo genere

23 agosto 2023

Traduttore AI multilingue

Meta ha presentato il suo nuovo modello di traduttore AI multimodale e multilingue chiamato SeamlessM4T. Questo traduttore, primo nel suo genere, è in grado di tradurre e trascrivere il parlato e il testo in un massimo di 100 lingue.

Meta ha lavorato su una serie di prodotti per il riconoscimento e la traduzione linguistica, ma con SeamlessM4T ha integrato più input e output in un unico modello. 

Secondo Annuncio di rilascio di Meta, SeamlessM4T supporta:

  • Riconoscimento vocale per quasi 100 lingue
  • Traduzione vocale da un testo all'altro per quasi 100 lingue di ingresso e di uscita
  • Traduzione vocale, che supporta quasi 100 lingue di ingresso e 36 lingue di uscita (compreso l'inglese).
  • Traduzione da testo a testo per quasi 100 lingue
  • Traduzione da testo a voce, con supporto di quasi 100 lingue di ingresso e 35 (compreso l'inglese) lingue di uscita

La traduzione vocale è probabilmente una delle funzionalità più interessanti del modello. La possibilità di registrare un discorso nella propria lingua e poi farlo parlare in una lingua diversa è incredibile. Immaginate quanto sarebbe utile quando si viaggia in un paese straniero.

Nel 2022 Meta ha rilasciato il suo traduttore testo-testo No Language Left Behind, che supporta 200 lingue. Questo modello supportava 55 lingue africane, molte delle quali erano tradotte molto male da altri strumenti.

Alla fine dell'anno scorso, Meta ha anche pubblicato un esempio di un nuovo approccio alla traduzione vocale di lingue con scarse risorse. Meta ha utilizzato il suo Universal Speech Translator per tradurre l'Hokkien, una lingua parlata senza sistema di scrittura.

All'inizio di quest'anno ha continuato a concentrarsi sulle lingue non servite con il modello Massively Multilingual Speech, che fornisce il riconoscimento vocale automatico di oltre 1.100 lingue.

SeamlessM4T è un modello unificato che si basa su queste capacità individuali per combinarle in un unico modello leggero.

 

I dati di formazione presentano problemi di bias e di tossicità

Meta afferma che il suo modello è stato addestrato su "dati provenienti da archivi pubblici di dati web (decine di miliardi di frasi) e di parlato (4 milioni di ore)".

Non ha specificato la provenienza dei dati di addestramento, ma ha detto che provenivano da dati con licenza e open-source non protetti da copyright.

Meta ha riconosciuto che il modello affronta gli stessi "rischi intrinseci" di parzialità e tossicità di altri modelli di intelligenza artificiale. Inevitabilmente i pregiudizi delle diverse culture si esprimono nell'audio registrato e vengono trasferiti al modello durante il processo di addestramento. 

Per eliminare i pregiudizi, Meta ha esteso il suo set di dati testuali Multilingual HolisticBias al parlato. Questo fa parte del suo sforzo di correggere i casi in cui il modello può "favorire ingiustamente un genere e a volte non rispettare gli stereotipi di genere".

Un'altra sfida che Meta deve affrontare è quella di fornire dei guardrail per contenere la tossicità della produzione. La tossicità si riferisce al fatto che le traduzioni errate potrebbero "incitare all'odio e alla violenza", bestemmie o abusi contro un individuo o un gruppo".

Meta ha utilizzato il suo "classificatore di tossicità altamente multilingue" per verificare la presenza di tossicità negli input e negli output, in modo che SeamlessM4T abbia meno probabilità di offendere qualcuno.

Probabilmente verranno comunque fuori delle traduzioni imbarazzanti, dato che il team che ha sviluppato il modello ammette che "si generalizza eccessivamente alle forme maschili quando si traduce da termini neutri". Scommetto che se ci si sforza abbastanza si può fargli dire qualcosa di sconcio.

Se desiderate provarlo, date un'occhiata al sito demo qui. È possibile registrare una frase, selezionare tre lingue diverse e pochi secondi dopo ascoltare le traduzioni vocali. Davvero impressionante.

Nel descrivere le sue ambizioni con SeamlessM4T, Meta ha fatto riferimento al pesce Babele della Guida galattica per gli autostoppisti. Non è ancora in grado di tradurre in tempo reale, ma probabilmente è molto più comodo da usare che infilarsi un pesce nell'orecchio.

Partecipa al futuro


ISCRIVITI OGGI

Chiaro, conciso, completo. Per conoscere gli sviluppi dell'IA con DailyAI

Eugene van der Watt

Eugene proviene da un background di ingegneria elettronica e ama tutto ciò che è tecnologico. Quando si prende una pausa dal consumo di notizie sull'intelligenza artificiale, lo si può trovare al tavolo da biliardo.

×

PDF GRATUITO ESCLUSIVO
Rimanere all'avanguardia con DailyAI

Iscriviti alla nostra newsletter settimanale e ricevi l'accesso esclusivo all'ultimo eBook di DailyAI: 'Mastering AI Tools: La tua guida 2024 per una maggiore produttività".

*Iscrivendosi alla nostra newsletter si accetta la nostra Informativa sulla privacy e il nostro Termini e condizioni