De AI-spraakassistent van Kyutai verslaat OpenAI voor publieke release

7 juli 2024

  • Het Franse non-profit AI-onderzoekslab Kyutai heeft Moshi uitgebracht, een realtime AI-spraakassistent
  • Moshi verwerkt emoties en spreekt in verschillende stijlen en accenten terwijl hij tegelijkertijd luistert
  • Moshi levert een end-to-end latentie van 200 ms voor realtime interacties met behulp van consumentenhardware

We wachten nog steeds op de release van OpenAI's spraakassistent GPT-4o, maar een Frans non-profit AI-onderzoekslaboratorium was het voor met de release van Moshi.

Moshi is een realtime spraak-AI-assistent die wordt aangedreven door het Helium 7B-model dat Kyutai heeft ontwikkeld en getraind met behulp van een mix van synthetische tekst en audiogegevens. Moshi werd vervolgens verfijnd met synthetische dialogen om interactie te leren.

Moshi kan 70 verschillende emoties begrijpen en uitdrukken en spreekt in verschillende stijlen en accenten. De demonstratie van zijn 200 milliseconde end-to-end latentie is zeer indrukwekkend. Door gelijktijdig te luisteren, denken en spreken zijn de realtime interacties naadloos zonder ongemakkelijke pauzes.

Het klinkt misschien niet zo zwoel als GPT-4o's Sky, waarvan OpenAI zegt Scarlett Johansson niet imiteertmaar Moshi reageert sneller en is openbaar beschikbaar.

Moshi kreeg zijn stem door te worden getraind op audiofragmenten van een stemacteur die Kyutai "Alice" noemde, zonder verdere details te geven.

De manier waarop Moshi onderbreekt en reageert met onmerkbare pauzes zorgt ervoor dat de interacties met het AI-model heel natuurlijk aanvoelen.

Hier is een voorbeeld van Moshi die meedoet aan een sci-fi rollenspel.

Helium 7B is veel kleiner dan GPT-4o, maar het kleine formaat betekent dat je het kunt draaien op consumentenhardware of in de cloud met behulp van energiezuinige GPU's.

Tijdens de demo gebruikte een technicus van Kyutai een MacBook Pro om te laten zien hoe Moshi on-device kon draaien.

Het was een beetje glitchy, maar het is een veelbelovend teken dat we binnenkort een AI-spraakassistent met lage latentie op onze telefoons of computers zullen hebben zonder onze privégegevens naar de cloud te sturen.

Audio compressie is cruciaal om Moshi zo klein mogelijk te maken. Het gebruikt een audio-codec genaamd Mimi die audio 300 keer kleiner comprimeert dan de MP3-codec doet. Mimi vangt zowel de akoestische informatie als de semantische gegevens in de audio.

Als je met Moshi wilt chatten, kun je dat hier proberen: https://kyutai.org/

Het is belangrijk om te onthouden dat Moshi een experimenteel prototype is en dat het in slechts 6 maanden is gemaakt door een team van 8 ingenieurs.

De webversie heeft veel storingen, maar dat komt waarschijnlijk omdat hun servers overspoeld worden door gebruikers die het willen uitproberen.

Kyutai zegt dat het binnenkort het model, de codec, de code en de gewichten openbaar zal maken. Het kan zijn dat we tot dan moeten wachten om prestaties te krijgen die vergelijkbaar zijn met de demo.

Hoewel het een beetje buggy is, was de demo verfrissend eerlijk vergeleken met Big Tech teasers van functies die niet worden vrijgegeven.

Moshi is een geweldig voorbeeld van wat een klein team van AI-ingenieurs kan doen en doet je afvragen waarom we nog steeds wachten tot GPT-4o met ons praat.

Doe mee met de toekomst


SCHRIJF JE VANDAAG NOG IN

Duidelijk, beknopt, uitgebreid. Krijg grip op AI-ontwikkelingen met DailyAI

Eugene van der Watt

Eugene heeft een achtergrond in elektrotechniek en houdt van alles wat met techniek te maken heeft. Als hij even pauzeert van het consumeren van AI-nieuws, kun je hem aan de snookertafel vinden.

×

GRATIS PDF EXCLUSIEF
Blijf voorop met DailyAI

Meld je aan voor onze wekelijkse nieuwsbrief en ontvang exclusieve toegang tot DailyAI's nieuwste eBook: 'Mastering AI Tools: Your 2024 Guide to Enhanced Productivity'.

* Door u aan te melden voor onze nieuwsbrief accepteert u onze Privacybeleid en onze Algemene voorwaarden