Vi väntar fortfarande på att OpenAI ska släppa sin röstassistent GPT-4o men ett franskt icke-vinstdrivande AI-forskningslaboratorium slog det till stansen med sin lansering av Moshi.
Moshi är en röst-AI-assistent i realtid som drivs av Helium 7B-modellen som Kyutai har utvecklat och tränat med hjälp av en blandning av syntetisk text och ljuddata. Moshi finjusterades sedan med hjälp av syntetiska dialoger för att lära den hur den ska interagera.
Moshi kan förstå och uttrycka 70 olika känslor och tala med olika stilar och accenter. Demonstrationen av dess 200 millisekunders end-to-end-latens är mycket imponerande. Genom att lyssna, tänka och tala samtidigt är realtidsinteraktionerna sömlösa utan några besvärliga pauser.
Det kanske inte låter lika sensuellt som GPT-4o's Sky, som OpenAI säger inte imiterar Scarlett Johansson, men Moshi svarar snabbare och är allmänt tillgänglig.
Moshi fick sin röst genom att tränas på ljudprov som producerades av en röstskådespelare som Kyutai kallade "Alice" utan att ge ytterligare detaljer.
Det sätt på vilket Moshi avbryter och svarar med omärkliga pauser gör att interaktionen med AI-modellen känns väldigt naturlig.
Här är ett exempel på Moshi som deltar i ett sci-fi-rollspel.
Moshi och Alex ger sig ut på ett rymdäventyr 🚀 pic.twitter.com/WRkPCScZ9F
- kyutai (@kyutai_labs) 3 juli 2024
Helium 7B är mycket mindre än GPT-4o men den lilla storleken innebär att du kan köra det på hårdvara i konsumentklass eller i molnet med hjälp av strömsnåla GPU:er.
Under demonstrationen använde en Kyutai-ingenjör en MacBook Pro för att visa hur Moshi kunde köras på en enhet.
Det var lite struligt, men det är ett lovande tecken på att vi snart kommer att ha en AI-röstassistent med låg latens som körs på våra telefoner eller datorer utan att skicka våra privata data till molnet.
Ljudkomprimering är avgörande för att göra Moshi så litet som möjligt. Den använder en ljudcodec som heter Mimi som komprimerar ljud 300 gånger mindre än vad MP3-codec gör. Mimi fångar upp både den akustiska informationen och den semantiska datan i ljudet.
Om du vill chatta med Moshi kan du prova det här: https://kyutai.org/
Det är viktigt att komma ihåg att Moshi är en experimentell prototyp och att den skapades på bara 6 månader av ett team på 8 ingenjörer.
Webbversionen är verkligen glitchig, men det beror förmodligen på att deras servrar blir överbelastade med användare som vill prova den.
Kyutai säger att de kommer att offentliggöra modellen, codec, kod och vikter inom kort. Vi kanske måste vänta tills dess för att få prestanda som liknar demot.
Även om det är lite buggigt var demon uppfriskande ärlig jämfört med Big Tech-teasers av funktioner som inte släpps.
Moshi är ett bra exempel på vad ett litet team av AI-ingenjörer kan göra och får en att undra varför vi fortfarande väntar på att GPT-4o ska prata med oss.