Meta lança o primeiro tradutor multimodal de IA do seu género

23 de agosto de 2023

Tradutor de IA para várias línguas

A Meta lançou o seu novo modelo de tradutor de IA multimodal e multilingue denominado SeamlessM4T. Este tradutor pioneiro pode traduzir e transcrever voz e texto em até 100 idiomas.

A Meta tem trabalhado numa série de produtos de reconhecimento linguístico e de tradução, mas com o SeamlessM4T integrou vários inputs e outputs num único modelo. 

De acordo com Anúncio de lançamento do Meta, SeamlessM4T suporta:

  • Reconhecimento de voz para quase 100 idiomas
  • Tradução de voz para texto para quase 100 idiomas de entrada e saída
  • Tradução de fala para fala, suportando quase 100 idiomas de entrada e 36 idiomas de saída (incluindo o inglês)
  • Tradução de texto para texto em quase 100 línguas
  • Tradução de texto para voz, suportando quase 100 idiomas de entrada e 35 idiomas de saída (incluindo o inglês)

A tradução de fala para fala é provavelmente uma das capacidades mais interessantes do modelo. Ser capaz de gravar um discurso na sua língua e depois ouvi-lo numa língua diferente é fantástico. Imagine como isto seria útil quando se viaja num país estrangeiro.

Em 2022, a Meta lançou o seu tradutor de texto para texto No Language Left Behind, que suporta 200 línguas. Esse modelo suportava 55 línguas africanas, muitas das quais eram muito mal traduzidas por outras ferramentas.

No final do ano passado, a Meta também publicou um exemplo de uma nova abordagem à tradução de fala para fala de línguas com poucos recursos. Utilizou o seu Tradutor Universal de Voz para traduzir Hokkien, uma língua falada sem sistema de escrita.

No início deste ano, a empresa continuou a centrar-se nas línguas menos servidas com o seu modelo de fala massivamente multilingue, que permite o reconhecimento automático da fala em mais de 1100 línguas.

O SeamlessM4T é um modelo unificado que se baseia nestas capacidades de modelos individuais para as combinar num modelo leve.

 

Os dados de formação apresentam desafios em termos de enviesamento e toxicidade

A Meta afirma que o seu modelo foi treinado com "dados de repositórios de dados da Web disponíveis publicamente (dezenas de milhares de milhões de frases) e de discurso (4 milhões de horas)".

Não especificou a origem dos dados de treino, mas disse que eram provenientes de dados licenciados e de código aberto que não estavam protegidos por direitos de autor.

Meta reconheceu que o modelo enfrenta os mesmos "riscos inerentes" de preconceito e toxicidade que outros modelos de IA. Inevitavelmente, o preconceito em relação a diferentes culturas é expresso no áudio gravado e transferido para o modelo durante o processo de formação. 

Para eliminar os preconceitos, a Meta alargou o seu conjunto de dados de texto Multilingual HolisticBias para acomodar a fala. Isto faz parte do seu esforço para corrigir os casos em que o modelo pode "favorecer injustamente um género e, por vezes, não utilizar estereótipos de género".

Outro desafio que a Meta tem de enfrentar é a criação de protecções para reduzir a toxicidade dos resultados. A toxicidade refere-se ao facto de as traduções incorrectas poderem "incitar ao ódio e à violência", profanação ou abuso contra um indivíduo ou um grupo".

A Meta utilizou o seu "classificador de toxicidade altamente multilingue" para verificar a toxicidade nos inputs e outputs, de modo a que o SeamlessM4T tenha menos probabilidades de ofender alguém.

É provável que ainda apareçam algumas traduções estranhas, uma vez que a equipa que desenvolveu o modelo admite que "generaliza excessivamente para formas masculinas ao traduzir a partir de termos neutros". Aposto que, se te esforçares, consegues que ele diga algo maroto.

Se quiser experimentá-lo, consulte o demonstração aqui. Pode gravar uma frase, selecionar três línguas diferentes e, alguns segundos depois, ouvir as traduções faladas. Muito impressionante.

Ao descrever as suas ambições com o SeamlessM4T, a Meta referiu o Babel Fish do Guia do Mochileiro das Galáxias. Ainda não é capaz de traduzir em tempo real, mas é provavelmente muito mais confortável de utilizar do que enfiar um peixe no ouvido.

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Eugene van der Watt

Eugene vem de uma formação em engenharia eletrónica e adora tudo o que é tecnologia. Quando faz uma pausa no consumo de notícias sobre IA, pode encontrá-lo à mesa de snooker.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições