L'assistant vocal de Kyutai devance OpenAI en matière de diffusion publique

7 juillet 2024

  • Le laboratoire français de recherche sur l'IA à but non lucratif Kyutai a lancé Moshi, un assistant vocal d'IA en temps réel.
  • Moshi traite les émotions et parle dans différents styles et accents tout en écoutant simultanément.
  • Moshi offre une latence de bout en bout de 200 ms pour des interactions en temps réel en utilisant du matériel grand public.

Nous attendons toujours qu'OpenAI lance son assistant vocal GPT-4o, mais un laboratoire français de recherche en IA à but non lucratif l'a devancé avec la sortie de Moshi.

Moshi est un assistant d'intelligence artificielle vocale en temps réel basé sur le modèle Helium 7B que Kyutai a développé et entraîné à l'aide d'un mélange de textes synthétiques et de données audio. Moshi a ensuite été perfectionné à l'aide de dialogues synthétiques pour lui apprendre à interagir.

Moshi peut comprendre et exprimer 70 émotions différentes et parler dans différents styles et accents. La démonstration de sa latence de 200 millièmes de seconde de bout en bout est très impressionnante. En écoutant, en pensant et en parlant simultanément, les interactions en temps réel sont transparentes, sans pauses gênantes.

Ce n'est peut-être pas aussi sulfureux que le Sky de GPT-4o, dont OpenAI dit n'imite pas Scarlett Johanssonmais Moshi répond plus rapidement et est accessible au public.

Moshi a acquis sa voix en s'entraînant sur des échantillons audio produits par un acteur vocal que Kyutai a appelé "Alice", sans fournir d'autres détails.

La façon dont Moshi interrompt et répond avec des pauses imperceptibles rend les interactions avec le modèle d'IA très naturelles.

Voici un exemple de Moshi participant à un jeu de rôle de science-fiction.

Helium 7B est beaucoup plus petit que GPT-4o, mais sa petite taille signifie que vous pouvez l'exécuter sur du matériel grand public ou dans le nuage en utilisant des GPU de faible puissance.

Pendant la démonstration, un ingénieur de Kyutai a utilisé un MacBook Pro pour montrer comment Moshi pouvait fonctionner sur l'appareil.

Il y a eu quelques ratés, mais c'est un signe prometteur que nous aurons bientôt un assistant vocal à faible latence fonctionnant sur nos téléphones ou nos ordinateurs sans envoyer nos données privées dans le nuage.

La compression audio est essentielle pour rendre Moshi aussi petit que possible. Il utilise un codec audio appelé Mimi qui compresse l'audio 300 fois moins que le codec MP3. Mimi capture à la fois les informations acoustiques et les données sémantiques de l'audio.

Si vous souhaitez discuter avec Moshi, vous pouvez le faire ici : https://kyutai.org/

Il est important de rappeler que Moshi est un prototype expérimental et qu'il a été créé en seulement 6 mois par une équipe de 8 ingénieurs.

La version web est vraiment défaillante, mais c'est probablement parce que leurs serveurs sont submergés par les utilisateurs qui veulent l'essayer.

Kyutai indique qu'elle publiera bientôt le modèle, le codec, le code et les poids. Il faudra peut-être attendre pour obtenir des performances similaires à celles de la démo.

Même si elle est un peu boguée, la démo était d'une honnêteté rafraîchissante par rapport aux teasers des Big Tech sur des fonctionnalités qui ne sont pas publiées.

Moshi est un excellent exemple de ce qu'une petite équipe d'ingénieurs en intelligence artificielle peut faire et nous amène à nous demander pourquoi nous attendons toujours que GPT-4o nous parle.

Rejoindre l'avenir


SOUSCRIRE AUJOURD'HUI

Clair, concis, complet. Maîtrisez les développements de l'IA avec DailyAI

Eugène van der Watt

Eugene a une formation d'ingénieur en électronique et adore tout ce qui touche à la technologie. Lorsqu'il fait une pause dans sa consommation d'informations sur l'IA, vous le trouverez à la table de snooker.

×

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI

Inscrivez-vous à notre newsletter hebdomadaire et recevez un accès exclusif au dernier eBook de DailyAI : 'Mastering AI Tools : Your 2024 Guide to Enhanced Productivity" (Maîtriser les outils de l'IA : votre guide 2024 pour une meilleure productivité).

*En vous abonnant à notre lettre d'information, vous acceptez nos conditions d'utilisation. Politique de confidentialité et notre Conditions générales d'utilisation