Kyutais AI-stemmeassistent slår OpenAI til offentlig udgivelse

7. juli 2024

  • Det franske non-profit AI-forskningslaboratorium Kyutai udgav Moshi, en AI-stemmeassistent i realtid
  • Moshi bearbejder følelser og taler i forskellige stilarter og med forskellige accenter, mens han lytter samtidig.
  • Moshi leverer en 200 ms end-to-end-latency til realtidsinteraktioner ved hjælp af hardware af forbrugerkvalitet

Vi venter stadig på, at OpenAI skal udgive sin GPT-4o stemmeassistent, men et fransk non-profit AI-forskningslaboratorium kom dem i forkøbet med udgivelsen af Moshi.

Moshi er en realtids stemme-AI-assistent, der drives af Helium 7B-modellen, som Kyutai har udviklet og trænet ved hjælp af en blanding af syntetisk tekst og lyddata. Moshi blev derefter finjusteret med syntetiske dialoger for at lære den at interagere.

Moshi kan forstå og udtrykke 70 forskellige følelser og tale i forskellige stilarter og med forskellige accenter. Demonstrationen af dens 200 milli-sekunders end-to-end latency er meget imponerende. Ved at lytte, tænke og tale samtidig er realtidsinteraktionerne problemfri uden akavede pauser.

Det lyder måske ikke lige så lummert som GPT-4o's Sky, som OpenAI siger ikke efterligner Scarlett Johanssonmen Moshi reagerer hurtigere og er offentligt tilgængelig.

Moshi fik sin stemme ved at blive trænet på lydeksempler produceret af en stemmeskuespiller, som Kyutai omtalte som "Alice" uden at give yderligere detaljer.

Den måde, Moshi afbryder og reagerer på med umærkelige pauser, får interaktionen med AI-modellen til at føles meget naturlig.

Her er et eksempel på, at Moshi deltager i et sci-fi-rollespil.

Helium 7B er meget mindre end GPT-4o, men den lille størrelse betyder, at du kan køre den på hardware af forbrugerkvalitet eller i skyen ved hjælp af strømbesparende GPU'er.

Under demonstrationen brugte en ingeniør fra Kyutai en MacBook Pro til at vise, hvordan Moshi kunne køre på enheden.

Det drillede lidt, men det er et lovende tegn på, at vi snart får en AI-stemmeassistent med lav latenstid, der kører på vores telefoner eller computere uden at sende vores private data til skyen.

Lydkomprimering er afgørende for at gøre Moshi så lille som muligt. Den bruger et lydkodeks kaldet Mimi, som komprimerer lyd 300 gange mindre, end MP3-kodekset gør. Mimi indfanger både den akustiske information og de semantiske data i lyden.

Hvis du har lyst til at chatte med Moshi, kan du prøve det her: https://kyutai.org/

Det er vigtigt at huske, at Moshi er en eksperimentel prototype, og at den blev skabt på bare 6 måneder af et team på 8 ingeniører.

Webversionen er virkelig fejlbehæftet, men det skyldes nok, at deres servere bliver overbelastet af brugere, der gerne vil prøve den.

Kyutai siger, at de snart vil offentliggøre modellen, codec'en, koden og vægten. Det kan være, at vi skal vente indtil da for at få en ydelse, der svarer til demoen.

Selv om den er lidt buggy, var demoen forfriskende ærlig sammenlignet med Big Tech-teasers af funktioner, der ikke bliver udgivet.

Moshi er et godt eksempel på, hvad et lille team af AI-ingeniører kan udrette, og det får en til at undre sig over, hvorfor vi stadig venter på, at GPT-4o skal tale til os.

Deltag i fremtiden


TILMELD DIG I DAG

Klar, kortfattet, omfattende. Få styr på AI-udviklingen med DailyAI

Eugene van der Watt

Eugene har en baggrund som elektronikingeniør og elsker alt, hvad der har med teknologi at gøre. Når han tager en pause fra at læse AI-nyheder, kan du finde ham ved snookerbordet.

×

GRATIS PDF EKSKLUSIVT
Vær på forkant med DailyAI

Tilmeld dig vores ugentlige nyhedsbrev og få eksklusiv adgang til DailyAI's seneste e-bog: 'Mastering AI Tools: Din 2024-guide til forbedret produktivitet'.

*Ved at tilmelde dig vores nyhedsbrev accepterer du vores Politik for beskyttelse af personlige oplysninger og vores Vilkår og betingelser