Meta ha lanzado su nuevo modelo de traductor AI multimodal multilingüe llamado SeamlessM4T. Este traductor, el primero de su clase, puede traducir y transcribir voz y texto en hasta 100 idiomas.
Meta ha estado trabajando en varios productos de reconocimiento y traducción de idiomas, pero con SeamlessM4T ha integrado múltiples entradas y salidas en un único modelo.
Según Anuncio de lanzamiento de MetaSeamlessM4T es compatible:
- Reconocimiento de voz en casi 100 idiomas
- Traducción de voz a texto para casi 100 idiomas de entrada y salida
- Traducción de voz a voz, compatible con casi 100 idiomas de entrada y 36 (incluido el inglés) de salida.
- Traducción de texto a texto en casi 100 idiomas
- Traducción de texto a voz, compatible con casi 100 idiomas de entrada y 35 (incluido el inglés) de salida.
La traducción de voz a voz es probablemente una de las funciones más interesantes del modelo. Es asombroso poder grabar un discurso en tu idioma y que te lo hablen en otro. Imagina lo útil que sería esto cuando viajas a otro país.
En 2022, Meta lanzó su traductor de texto a texto No Language Left Behind, compatible con 200 idiomas. Ese modelo soportaba 55 lenguas africanas, muchas de las cuales estaban muy mal traducidas por otras herramientas.
A finales del año pasado, Meta también dio a conocer un ejemplo de un nuevo enfoque de la traducción de voz a voz de lenguas con pocos recursos. Utilizó su Universal Speech Translator para traducir hokkien, una lengua hablada sin sistema de escritura.
A principios de este año siguió centrándose en las lenguas desatendidas con su modelo Massively Multilingual Speech, que ofrece reconocimiento automático del habla en más de 1.100 idiomas.
SeamlessM4T es un modelo unificado que se basa en estas capacidades individuales del modelo para combinarlas en un modelo ligero.
Presentamos SeamlessM4T, el primer modelo de traducción multimodal multilingüe todo en uno.
Este único modelo puede realizar tareas de voz a texto, voz a voz, traducción de texto a texto y reconocimiento de voz en hasta 100 idiomas, en función de la tarea.
Detalles ⬇️
- Meta AI (@MetaAI) 22 de agosto de 2023
Los datos de entrenamiento presentan sesgos y problemas de toxicidad
Meta afirma que su modelo se entrenó con "datos procedentes de repositorios públicos de datos web (decenas de miles de millones de frases) y de voz (4 millones de horas)".
No especificaba de dónde procedían los datos de entrenamiento, pero afirmaba que procedían de datos con licencia y de código abierto que no estaban protegidos por derechos de autor.
Meta reconoció que el modelo se enfrenta a los mismos "riesgos inherentes" de sesgo y toxicidad que otros modelos de IA. Inevitablemente, el sesgo en diferentes culturas se expresa en el audio grabado y se transfiere al modelo durante el proceso de entrenamiento.
Para eliminar el sesgo, Meta amplió su conjunto de datos de texto Multilingual HolisticBias para incluir el habla. Esto forma parte de su esfuerzo por corregir los casos en que el modelo puede "favorecer injustamente a un género y, a veces, incurrir por defecto en estereotipos de género."
Otro reto que Meta tiene que afrontar es el de poner barreras para frenar la toxicidad de los resultados. La toxicidad se refiere a cómo las traducciones incorrectas podrían "incitar al odio, a la violencia", blasfemias o insultos contra un individuo o un grupo".
Meta utilizó su "clasificador de toxicidad altamente multilingüe" para comprobar la toxicidad en las entradas y salidas, de modo que sea menos probable que SeamlessM4T ofenda a alguien.
Es probable que siga dando lugar a algunas traducciones incómodas, ya que el equipo que ha desarrollado el modelo admite que "sobregeneraliza a las formas masculinas cuando traduce a partir de términos neutros". Apuesto a que si te esfuerzas lo suficiente puedes conseguir que diga algo travieso.
Si quiere probarlo, visite la página demo aquí. Puedes grabar una frase, seleccionar tres idiomas diferentes y, unos segundos después, escuchar las traducciones habladas. Impresionante.
Al describir sus ambiciones con SeamlessM4T, Meta hizo referencia al pez Babel de La guía del autoestopista galáctico. Todavía no es capaz de traducir en tiempo real, pero probablemente sea mucho más cómodo de usar que meterse un pez en la oreja.