We wachten nog steeds op de release van OpenAI's spraakassistent GPT-4o, maar een Frans non-profit AI-onderzoekslaboratorium was het voor met de release van Moshi.
Moshi is een realtime spraak-AI-assistent die wordt aangedreven door het Helium 7B-model dat Kyutai heeft ontwikkeld en getraind met behulp van een mix van synthetische tekst en audiogegevens. Moshi werd vervolgens verfijnd met synthetische dialogen om interactie te leren.
Moshi kan 70 verschillende emoties begrijpen en uitdrukken en spreekt in verschillende stijlen en accenten. De demonstratie van zijn 200 milliseconde end-to-end latentie is zeer indrukwekkend. Door gelijktijdig te luisteren, denken en spreken zijn de realtime interacties naadloos zonder ongemakkelijke pauzes.
Het klinkt misschien niet zo zwoel als GPT-4o's Sky, waarvan OpenAI zegt Scarlett Johansson niet imiteertmaar Moshi reageert sneller en is openbaar beschikbaar.
Moshi kreeg zijn stem door te worden getraind op audiofragmenten van een stemacteur die Kyutai "Alice" noemde, zonder verdere details te geven.
De manier waarop Moshi onderbreekt en reageert met onmerkbare pauzes zorgt ervoor dat de interacties met het AI-model heel natuurlijk aanvoelen.
Hier is een voorbeeld van Moshi die meedoet aan een sci-fi rollenspel.
Moshi en Alex gaan op ruimteavontuur 🚀 pic.twitter.com/WRkPCScZ9F
- kyutai (@kyutai_labs) 3 juli 2024
Helium 7B is veel kleiner dan GPT-4o, maar het kleine formaat betekent dat je het kunt draaien op consumentenhardware of in de cloud met behulp van energiezuinige GPU's.
Tijdens de demo gebruikte een technicus van Kyutai een MacBook Pro om te laten zien hoe Moshi on-device kon draaien.
Het was een beetje glitchy, maar het is een veelbelovend teken dat we binnenkort een AI-spraakassistent met lage latentie op onze telefoons of computers zullen hebben zonder onze privégegevens naar de cloud te sturen.
Audio compressie is cruciaal om Moshi zo klein mogelijk te maken. Het gebruikt een audio-codec genaamd Mimi die audio 300 keer kleiner comprimeert dan de MP3-codec doet. Mimi vangt zowel de akoestische informatie als de semantische gegevens in de audio.
Als je met Moshi wilt chatten, kun je dat hier proberen: https://kyutai.org/
Het is belangrijk om te onthouden dat Moshi een experimenteel prototype is en dat het in slechts 6 maanden is gemaakt door een team van 8 ingenieurs.
De webversie heeft veel storingen, maar dat komt waarschijnlijk omdat hun servers overspoeld worden door gebruikers die het willen uitproberen.
Kyutai zegt dat het binnenkort het model, de codec, de code en de gewichten openbaar zal maken. Het kan zijn dat we tot dan moeten wachten om prestaties te krijgen die vergelijkbaar zijn met de demo.
Hoewel het een beetje buggy is, was de demo verfrissend eerlijk vergeleken met Big Tech teasers van functies die niet worden vrijgegeven.
Moshi is een geweldig voorbeeld van wat een klein team van AI-ingenieurs kan doen en doet je afvragen waarom we nog steeds wachten tot GPT-4o met ons praat.