Kyutais AI-stemmeassistent slår OpenAI til offentlig lansering

7. juli 2024

  • Det franske non-profit AI-forskningslaboratoriet Kyutai lanserte Moshi, en AI-stemmeassistent i sanntid
  • Moshi bearbeider følelser og snakker i ulike stilarter og med ulike aksenter samtidig som han lytter
  • Moshi leverer 200 ms ende-til-ende-forsinkelse for sanntidsinteraksjoner ved hjelp av maskinvare i forbrukerklassen

Vi venter fortsatt på at OpenAI skal lansere sin stemmeassistent GPT-4o, men et fransk non-profit AI-forskningslaboratorium kom dem i forkjøpet med lanseringen av Moshi.

Moshi er en sanntids stemme-AI-assistent drevet av Helium 7B-modellen som Kyutai har utviklet og trent opp ved hjelp av en blanding av syntetisk tekst og lyddata. Moshi ble deretter finjustert med syntetiske dialoger for å lære den hvordan den skal samhandle.

Moshi kan forstå og uttrykke 70 forskjellige følelser og snakke i ulike stilarter og aksenter. Demonstrasjonen av den 200 milli-sekunders end-to-end-latency er svært imponerende. Ved å lytte, tenke og snakke samtidig er sanntidsinteraksjonen sømløs og uten pinlige pauser.

Det høres kanskje ikke like sensasjonelt ut som GPT-4o's Sky, som OpenAI sier ikke imiterer Scarlett Johansson, men Moshi svarer raskere og er offentlig tilgjengelig.

Moshi fikk stemmen sin ved å bli trent på lydprøver produsert av en stemmeskuespiller Kyutai refererte til som "Alice" uten å gi ytterligere detaljer.

Måten Moshi avbryter og reagerer på med umerkelige pauser, gjør at interaksjonen med AI-modellen føles veldig naturlig.

Her er et eksempel på Moshi som deltar i et sci-fi-rollespill.

Helium 7B er mye mindre enn GPT-4o, men den lille størrelsen betyr at du kan kjøre den på maskinvare av forbrukerkvalitet eller i skyen ved hjelp av GPU-er med lavt strømforbruk.

Under demonstrasjonen brukte en Kyutai-ingeniør en MacBook Pro for å vise hvordan Moshi kunne kjøres på enheten.

Det var litt glitchy, men det er et lovende tegn på at vi snart vil ha en AI-stemmeassistent med lav latenstid som kjører på telefonene eller datamaskinene våre uten å sende våre private data til skyen.

Lydkomprimering er avgjørende for å gjøre Moshi så liten som mulig. Den bruker en lydkodek som heter Mimi, som komprimerer lyd 300 ganger mindre enn MP3-kodeken gjør. Mimi fanger opp både den akustiske informasjonen og de semantiske dataene i lyden.

Hvis du vil chatte med Moshi, kan du prøve det her: https://kyutai.org/

Det er viktig å huske at Moshi er en eksperimentell prototyp, og at den ble utviklet på bare seks måneder av et team på åtte ingeniører.

Nettversjonen er veldig glitchy, men det er sannsynligvis fordi serverne deres blir overbelastet av brukere som ønsker å prøve den ut.

Kyutai sier at de snart vil offentliggjøre modellen, kodeken, koden og vektene. Det kan hende vi må vente til da for å få en ytelse som ligner på demoen.

Selv om den er litt buggy, var demoen forfriskende ærlig sammenlignet med Big Tech-teasere av funksjoner som ikke blir utgitt.

Moshi er et godt eksempel på hva et lite team av AI-ingeniører kan få til, og får deg til å lure på hvorfor vi fortsatt venter på at GPT-4o skal snakke med oss.

Bli med i fremtiden


ABONNER I DAG

Tydelig, kortfattet og omfattende. Få et grep om AI-utviklingen med DagligAI

Eugene van der Watt

Eugene har bakgrunn som elektroingeniør og elsker alt som har med teknologi å gjøre. Når han tar en pause fra AI-nyhetene, finner du ham ved snookerbordet.

×

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI

Meld deg på vårt ukentlige nyhetsbrev og få eksklusiv tilgang til DailyAIs nyeste e-bok: "Mastering AI Tools: Din 2024-guide til økt produktivitet".

*Ved å abonnere på vårt nyhetsbrev aksepterer du vår Retningslinjer for personvern og vår Vilkår og betingelser