Meta lance le premier traducteur multimodal à base d'IA

23 août 2023

Traducteur IA multilingue

Meta a lancé son nouveau modèle de traducteur d'IA multimodal et multilingue appelé SeamlessM4T. Ce traducteur, le premier du genre, peut traduire et transcrire la parole et le texte dans une centaine de langues.

Meta a travaillé sur un certain nombre de produits de reconnaissance linguistique et de traduction, mais avec SeamlessM4T, elle a intégré de multiples entrées et sorties dans un modèle unique. 

Selon le Annonce de la sortie de MetaSeamlessM4T prend en charge :

  • Reconnaissance vocale pour près de 100 langues
  • Traduction de la parole au texte dans près de 100 langues d'entrée et de sortie
  • Traduction de la parole vers la parole, prenant en charge près de 100 langues d'entrée et 36 langues de sortie (dont l'anglais)
  • Traduction texte à texte dans près de 100 langues
  • Traduction texte-parole, prenant en charge près de 100 langues d'entrée et 35 langues de sortie (dont l'anglais)

La traduction de la parole en parole est probablement l'une des fonctionnalités les plus intéressantes du modèle. Pouvoir enregistrer un discours dans sa langue et le faire prononcer dans une autre langue est extraordinaire. Imaginez à quel point cela pourrait être utile lors d'un voyage dans un pays étranger.

En 2022, Meta a lancé son traducteur texte à texte No Language Left Behind, qui prend en charge 200 langues. Ce modèle prenait en charge 55 langues africaines, dont beaucoup étaient très mal traduites par d'autres outils.

À la fin de l'année dernière, Meta a également publié un exemple d'une nouvelle approche de la traduction de la parole à la parole pour les langues à faibles ressources. Elle a utilisé son traducteur vocal universel pour traduire le hokkien, une langue parlée dépourvue de système d'écriture.

Au début de l'année, elle a continué à se concentrer sur les langues mal desservies avec son modèle Massively Multilingual Speech qui permet la reconnaissance automatique de la parole dans plus de 1 100 langues.

SeamlessM4T est un modèle unifié qui s'appuie sur les capacités de ces modèles individuels pour les combiner en un seul modèle léger.

 

Les données d'entraînement présentent des problèmes de biais et de toxicité

Meta indique que son modèle a été formé à partir de "données provenant de référentiels publics de données web (dizaines de milliards de phrases) et de discours (4 millions d'heures)".

Elle n'a pas précisé d'où provenaient les données d'entraînement, mais a indiqué qu'elles provenaient de données sous licence et de sources ouvertes qui n'étaient pas protégées par des droits d'auteur.

Meta a reconnu que le modèle est confronté aux mêmes "risques inhérents" de biais et de toxicité que les autres modèles d'IA. Inévitablement, les préjugés à l'égard des différentes cultures s'expriment dans les enregistrements audio et sont transférés au modèle au cours du processus de formation. 

Pour éliminer les biais, Meta a étendu son ensemble de données textuelles multilingues HolisticBias à la parole. Cela fait partie de ses efforts pour corriger les cas où le modèle peut "favoriser injustement un sexe et parfois se baser sur des stéréotypes de genre".

La mise en place de garde-fous pour limiter la toxicité des résultats est un autre défi que Meta doit relever. La toxicité fait référence à la façon dont les traductions incorrectes peuvent "inciter à la haine, à la violence", des blasphèmes ou des injures à l'encontre d'un individu ou d'un groupe".

Meta a utilisé son "classificateur de toxicité hautement multilingue" pour vérifier la toxicité des entrées et des sorties afin que SeamlessM4T soit moins susceptible d'offenser qui que ce soit.

L'équipe qui a développé le modèle admet qu'il "sur-généralise les formes masculines lorsqu'il s'agit de traduire des termes neutres". Je parie qu'avec un peu d'acharnement, on peut lui faire dire quelque chose de coquin.

Si vous souhaitez l'essayer, consultez la page démo ici. Vous pouvez enregistrer une phrase, sélectionner trois langues différentes et, quelques secondes plus tard, entendre les traductions parlées. Très impressionnant.

En décrivant ses ambitions avec SeamlessM4T, Meta a fait référence au poisson Babel du Hitchhiker's Guide to the Galaxy. Il n'est pas encore capable de traduire en temps réel, mais il est probablement beaucoup plus confortable à utiliser que de se coller un poisson dans l'oreille.

Rejoindre l'avenir


SOUSCRIRE AUJOURD'HUI

Clair, concis, complet. Maîtrisez les développements de l'IA avec DailyAI

Eugène van der Watt

Eugene a une formation d'ingénieur en électronique et adore tout ce qui touche à la technologie. Lorsqu'il fait une pause dans sa consommation d'informations sur l'IA, vous le trouverez à la table de snooker.

×

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI

Inscrivez-vous à notre newsletter hebdomadaire et recevez un accès exclusif au dernier eBook de DailyAI : 'Mastering AI Tools : Your 2024 Guide to Enhanced Productivity" (Maîtriser les outils de l'IA : votre guide 2024 pour une meilleure productivité).

*En vous abonnant à notre lettre d'information, vous acceptez nos conditions d'utilisation. Politique de confidentialité et notre Conditions générales d'utilisation