Meta dévoile Voicebox, une IA de pointe centrée sur l'audio

17 juin 2023

AI Meta

Meta a dévoilé Boîte vocaleest un modèle d'IA générative de pointe pour la parole. Il fonctionne de la même manière que les générateurs de texte, comme ChatGPT, mais génère des réponses audio au lieu de texte. 

Voicebox peut générer de l'audio à partir de zéro ou modifier de l'audio existant. C'est un outil très flexible qui peut prendre un clip audio de 2 secondes de la voix d'une personne et l'utiliser pour générer un discours dans une autre langue tout en conservant l'intonation de la voix.

Cela se combine avec la génération de texte à partir de la parole. Vous pouvez donc "insérer" votre voix dans l'IA et l'utiliser pour générer de la synthèse vocale avec votre propre voix. Par exemple, si vous êtes en vacances et que vous avez besoin de communiquer en anglais, français, espagnol, allemand, polonais ou portugais, il vous suffit de taper votre message dans la Voicebox et elle parlera pour vous.

Le modèle a été entraîné avec plus de 50 000 heures de discours enregistrés et de transcriptions dans 6 langues : anglais, français, espagnol, allemand, polonais et portugais. Il est considérablement plus rapide et plus précis que les IA audio-centriques similaires, comme VALL-E.  

Voici les 4 utilisations principales de la Voicebox :

  1. Synthèse vocale en contexte: La Voicebox peut générer un son réaliste à partir d'un texte. Elle pourrait être utilisée pour créer des assistants virtuels multilingues afin de permettre aux personnes souffrant de troubles de la voix et de l'audition de converser plus naturellement. 
  2. Transfert de style entre langues: L'IA peut traduire des textes en 6 langues différentes, ce qui permet une communication multilingue authentique et naturelle.
  3. Débruitage et édition de la parole: La boîte vocale peut générer de la parole pour éditer des segments dans des enregistrements audio. Par exemple, elle peut resynthétiser des parties de discours corrompues par le bruit. 
  4. Échantillonnage diversifié de la parole: La Voicebox peut générer un discours représentatif dans 6 langues, ce qui est idéal pour générer des données synthétiques pour d'autres modèles audio et vocaux avec des résultats impressionnants. Les modèles de reconnaissance vocale entraînés sur les données synthétiques générées par la Voicebox sont presque aussi performants que les modèles entraînés sur des données réelles, avec une dégradation marginale du taux d'erreur de 1%, ce qui représente un bond en avant par rapport à la dégradation de 45 à 70% observée dans des modèles similaires. 

Meta n'a pas encore publié la Voicebox, invoquant des craintes d'utilisation abusive. Cependant, elle a publié un document approfondi sur le modèle, disponible ici

Bien qu'il n'y ait pas d'estimation officielle de la date à laquelle les gens pourront utiliser la Voicebox, Meta affirme que l'outil aidera les créateurs à éditer des pistes audio, améliorera la communication avec les personnes malvoyantes et permettra aux gens de parler n'importe quelle langue étrangère avec leur propre voix.

Rejoindre l'avenir


SOUSCRIRE AUJOURD'HUI

Clair, concis, complet. Maîtrisez les développements de l'IA avec DailyAI

Sam Jeans

Sam est un rédacteur scientifique et technologique qui a travaillé dans diverses start-ups spécialisées dans l'IA. Lorsqu'il n'écrit pas, on peut le trouver en train de lire des revues médicales ou de fouiller dans des boîtes de disques vinyles.

×

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI

Inscrivez-vous à notre newsletter hebdomadaire et recevez un accès exclusif au dernier eBook de DailyAI : 'Mastering AI Tools : Your 2024 Guide to Enhanced Productivity" (Maîtriser les outils de l'IA : votre guide 2024 pour une meilleure productivité).

*En vous abonnant à notre lettre d'information, vous acceptez nos conditions d'utilisation. Politique de confidentialité et notre Conditions générales d'utilisation