Nous attendons toujours qu'OpenAI lance son assistant vocal GPT-4o, mais un laboratoire français de recherche en IA à but non lucratif l'a devancé avec la sortie de Moshi.
Moshi est un assistant d'intelligence artificielle vocale en temps réel basé sur le modèle Helium 7B que Kyutai a développé et entraîné à l'aide d'un mélange de textes synthétiques et de données audio. Moshi a ensuite été perfectionné à l'aide de dialogues synthétiques pour lui apprendre à interagir.
Moshi peut comprendre et exprimer 70 émotions différentes et parler dans différents styles et accents. La démonstration de sa latence de 200 millièmes de seconde de bout en bout est très impressionnante. En écoutant, en pensant et en parlant simultanément, les interactions en temps réel sont transparentes, sans pauses gênantes.
Ce n'est peut-être pas aussi sulfureux que le Sky de GPT-4o, dont OpenAI dit n'imite pas Scarlett Johanssonmais Moshi répond plus rapidement et est accessible au public.
Moshi a acquis sa voix en s'entraînant sur des échantillons audio produits par un acteur vocal que Kyutai a appelé "Alice", sans fournir d'autres détails.
La façon dont Moshi interrompt et répond avec des pauses imperceptibles rend les interactions avec le modèle d'IA très naturelles.
Voici un exemple de Moshi participant à un jeu de rôle de science-fiction.
Moshi et Alex partent à l'aventure dans l'espace 🚀 pic.twitter.com/WRkPCScZ9F
- kyutai (@kyutai_labs) 3 juillet 2024
Helium 7B est beaucoup plus petit que GPT-4o, mais sa petite taille signifie que vous pouvez l'exécuter sur du matériel grand public ou dans le nuage en utilisant des GPU de faible puissance.
Pendant la démonstration, un ingénieur de Kyutai a utilisé un MacBook Pro pour montrer comment Moshi pouvait fonctionner sur l'appareil.
Il y a eu quelques ratés, mais c'est un signe prometteur que nous aurons bientôt un assistant vocal à faible latence fonctionnant sur nos téléphones ou nos ordinateurs sans envoyer nos données privées dans le nuage.
La compression audio est essentielle pour rendre Moshi aussi petit que possible. Il utilise un codec audio appelé Mimi qui compresse l'audio 300 fois moins que le codec MP3. Mimi capture à la fois les informations acoustiques et les données sémantiques de l'audio.
Si vous souhaitez discuter avec Moshi, vous pouvez le faire ici : https://kyutai.org/
Il est important de rappeler que Moshi est un prototype expérimental et qu'il a été créé en seulement 6 mois par une équipe de 8 ingénieurs.
La version web est vraiment défaillante, mais c'est probablement parce que leurs serveurs sont submergés par les utilisateurs qui veulent l'essayer.
Kyutai indique qu'elle publiera bientôt le modèle, le codec, le code et les poids. Il faudra peut-être attendre pour obtenir des performances similaires à celles de la démo.
Même si elle est un peu boguée, la démo était d'une honnêteté rafraîchissante par rapport aux teasers des Big Tech sur des fonctionnalités qui ne sont pas publiées.
Moshi est un excellent exemple de ce qu'une petite équipe d'ingénieurs en intelligence artificielle peut faire et nous amène à nous demander pourquoi nous attendons toujours que GPT-4o nous parle.