A Meta lançou o seu novo modelo de tradutor de IA multimodal e multilingue denominado SeamlessM4T. Este tradutor pioneiro pode traduzir e transcrever voz e texto em até 100 idiomas.
A Meta tem trabalhado numa série de produtos de reconhecimento linguístico e de tradução, mas com o SeamlessM4T integrou vários inputs e outputs num único modelo.
De acordo com Anúncio de lançamento do Meta, SeamlessM4T suporta:
- Reconhecimento de voz para quase 100 idiomas
- Tradução de voz para texto para quase 100 idiomas de entrada e saída
- Tradução de fala para fala, suportando quase 100 idiomas de entrada e 36 idiomas de saída (incluindo o inglês)
- Tradução de texto para texto em quase 100 línguas
- Tradução de texto para voz, suportando quase 100 idiomas de entrada e 35 idiomas de saída (incluindo o inglês)
A tradução de fala para fala é provavelmente uma das capacidades mais interessantes do modelo. Ser capaz de gravar um discurso na sua língua e depois ouvi-lo numa língua diferente é fantástico. Imagine como isto seria útil quando se viaja num país estrangeiro.
Em 2022, a Meta lançou o seu tradutor de texto para texto No Language Left Behind, que suporta 200 línguas. Esse modelo suportava 55 línguas africanas, muitas das quais eram muito mal traduzidas por outras ferramentas.
No final do ano passado, a Meta também publicou um exemplo de uma nova abordagem à tradução de fala para fala de línguas com poucos recursos. Utilizou o seu Tradutor Universal de Voz para traduzir Hokkien, uma língua falada sem sistema de escrita.
No início deste ano, a empresa continuou a centrar-se nas línguas menos servidas com o seu modelo de fala massivamente multilingue, que permite o reconhecimento automático da fala em mais de 1100 línguas.
O SeamlessM4T é um modelo unificado que se baseia nestas capacidades de modelos individuais para as combinar num modelo leve.
Apresentamos o SeamlessM4T, o primeiro modelo de tradução multimodal multilingue tudo-em-um.
Este modelo único pode efetuar tarefas de conversão de texto em texto, conversão de texto em voz, tradução de texto em texto e reconhecimento de voz até 100 línguas, dependendo da tarefa.
Detalhes ⬇️
- Meta AI (@MetaAI) 22 de agosto de 2023
Os dados de formação apresentam desafios em termos de enviesamento e toxicidade
A Meta afirma que o seu modelo foi treinado com "dados de repositórios de dados da Web disponíveis publicamente (dezenas de milhares de milhões de frases) e de discurso (4 milhões de horas)".
Não especificou a origem dos dados de treino, mas disse que eram provenientes de dados licenciados e de código aberto que não estavam protegidos por direitos de autor.
Meta reconheceu que o modelo enfrenta os mesmos "riscos inerentes" de preconceito e toxicidade que outros modelos de IA. Inevitavelmente, o preconceito em relação a diferentes culturas é expresso no áudio gravado e transferido para o modelo durante o processo de formação.
Para eliminar os preconceitos, a Meta alargou o seu conjunto de dados de texto Multilingual HolisticBias para acomodar a fala. Isto faz parte do seu esforço para corrigir os casos em que o modelo pode "favorecer injustamente um género e, por vezes, não utilizar estereótipos de género".
Outro desafio que a Meta tem de enfrentar é a criação de protecções para reduzir a toxicidade dos resultados. A toxicidade refere-se ao facto de as traduções incorrectas poderem "incitar ao ódio e à violência", profanação ou abuso contra um indivíduo ou um grupo".
A Meta utilizou o seu "classificador de toxicidade altamente multilingue" para verificar a toxicidade nos inputs e outputs, de modo a que o SeamlessM4T tenha menos probabilidades de ofender alguém.
É provável que ainda apareçam algumas traduções estranhas, uma vez que a equipa que desenvolveu o modelo admite que "generaliza excessivamente para formas masculinas ao traduzir a partir de termos neutros". Aposto que, se te esforçares, consegues que ele diga algo maroto.
Se quiser experimentá-lo, consulte o demonstração aqui. Pode gravar uma frase, selecionar três línguas diferentes e, alguns segundos depois, ouvir as traduções faladas. Muito impressionante.
Ao descrever as suas ambições com o SeamlessM4T, a Meta referiu o Babel Fish do Guia do Mochileiro das Galáxias. Ainda não é capaz de traduzir em tempo real, mas é provavelmente muito mais confortável de utilizar do que enfiar um peixe no ouvido.