Vi venter stadig på, at OpenAI skal udgive sin GPT-4o stemmeassistent, men et fransk non-profit AI-forskningslaboratorium kom dem i forkøbet med udgivelsen af Moshi.
Moshi er en realtids stemme-AI-assistent, der drives af Helium 7B-modellen, som Kyutai har udviklet og trænet ved hjælp af en blanding af syntetisk tekst og lyddata. Moshi blev derefter finjusteret med syntetiske dialoger for at lære den at interagere.
Moshi kan forstå og udtrykke 70 forskellige følelser og tale i forskellige stilarter og med forskellige accenter. Demonstrationen af dens 200 milli-sekunders end-to-end latency er meget imponerende. Ved at lytte, tænke og tale samtidig er realtidsinteraktionerne problemfri uden akavede pauser.
Det lyder måske ikke lige så lummert som GPT-4o's Sky, som OpenAI siger ikke efterligner Scarlett Johanssonmen Moshi reagerer hurtigere og er offentligt tilgængelig.
Moshi fik sin stemme ved at blive trænet på lydeksempler produceret af en stemmeskuespiller, som Kyutai omtalte som "Alice" uden at give yderligere detaljer.
Den måde, Moshi afbryder og reagerer på med umærkelige pauser, får interaktionen med AI-modellen til at føles meget naturlig.
Her er et eksempel på, at Moshi deltager i et sci-fi-rollespil.
Moshi og Alex tager på rumeventyr 🚀. pic.twitter.com/WRkPCScZ9F
- kyutai (@kyutai_labs) 3. juli 2024
Helium 7B er meget mindre end GPT-4o, men den lille størrelse betyder, at du kan køre den på hardware af forbrugerkvalitet eller i skyen ved hjælp af strømbesparende GPU'er.
Under demonstrationen brugte en ingeniør fra Kyutai en MacBook Pro til at vise, hvordan Moshi kunne køre på enheden.
Det drillede lidt, men det er et lovende tegn på, at vi snart får en AI-stemmeassistent med lav latenstid, der kører på vores telefoner eller computere uden at sende vores private data til skyen.
Lydkomprimering er afgørende for at gøre Moshi så lille som muligt. Den bruger et lydkodeks kaldet Mimi, som komprimerer lyd 300 gange mindre, end MP3-kodekset gør. Mimi indfanger både den akustiske information og de semantiske data i lyden.
Hvis du har lyst til at chatte med Moshi, kan du prøve det her: https://kyutai.org/
Det er vigtigt at huske, at Moshi er en eksperimentel prototype, og at den blev skabt på bare 6 måneder af et team på 8 ingeniører.
Webversionen er virkelig fejlbehæftet, men det skyldes nok, at deres servere bliver overbelastet af brugere, der gerne vil prøve den.
Kyutai siger, at de snart vil offentliggøre modellen, codec'en, koden og vægten. Det kan være, at vi skal vente indtil da for at få en ydelse, der svarer til demoen.
Selv om den er lidt buggy, var demoen forfriskende ærlig sammenlignet med Big Tech-teasers af funktioner, der ikke bliver udgivet.
Moshi er et godt eksempel på, hvad et lille team af AI-ingeniører kan udrette, og det får en til at undre sig over, hvorfor vi stadig venter på, at GPT-4o skal tale til os.