Der KI-Sprachassistent von Kyutai schlägt OpenAI bei der Veröffentlichung

Juli 7, 2024

  • Das französische gemeinnützige KI-Forschungslabor Kyutai veröffentlicht Moshi, einen KI-Sprachassistenten in Echtzeit
  • Moshi verarbeitet Emotionen und spricht in verschiedenen Stilen und Akzenten, während er gleichzeitig zuhört
  • Moshi bietet eine Ende-zu-Ende-Latenz von 200 ms für Echtzeit-Interaktionen mit Hardware der Verbraucherklasse

Wir warten immer noch darauf, dass OpenAI seinen Sprachassistenten GPT-4o veröffentlicht, aber ein französisches gemeinnütziges KI-Forschungslabor ist ihm mit der Veröffentlichung von Moshi zuvorgekommen.

Moshi ist ein Echtzeit-KI-Sprachassistent, der auf dem Modell Helium 7B basiert, das Kyutai entwickelt und mit einer Mischung aus synthetischen Text- und Audiodaten trainiert hat. Moshi wurde dann mit synthetischen Dialogen feinabgestimmt, um ihm beizubringen, wie er interagieren soll.

Moshi kann 70 verschiedene Emotionen verstehen und ausdrücken und in verschiedenen Stilen und Akzenten sprechen. Die Demonstration der End-to-End-Latenz von 200 Millisekunden ist sehr beeindruckend. Durch das gleichzeitige Hören, Denken und Sprechen sind die Echtzeit-Interaktionen nahtlos und ohne unangenehme Pausen.

Es klingt vielleicht nicht so schwül wie GPT-4o's Sky, das laut OpenAI imitiert nicht Scarlett Johanssonaber Moshi antwortet schneller und ist öffentlich zugänglich.

Moshi erhielt seine Stimme, indem es auf Hörproben trainiert wurde, die von einem Synchronsprecher produziert wurden, den Kyutai als "Alice" bezeichnete, ohne weitere Einzelheiten zu nennen.

Die Art und Weise, wie Moshi unterbricht und mit unmerklichen Pausen reagiert, lässt die Interaktionen mit dem KI-Modell sehr natürlich erscheinen.

Hier ist ein Beispiel dafür, wie Moshi an einem Sci-Fi-Rollenspiel teilnimmt.

Helium 7B ist viel kleiner als GPT-4o, aber seine geringe Größe bedeutet, dass Sie es auf Consumer-Hardware oder in der Cloud mit stromsparenden GPUs betreiben können.

Während der Vorführung zeigte ein Kyutai-Ingenieur anhand eines MacBook Pro, wie Moshi auf dem Gerät ausgeführt werden kann.

Es war ein wenig problematisch, aber es ist ein vielversprechendes Zeichen dafür, dass wir bald einen KI-Sprachassistenten mit geringer Latenz haben werden, der auf unseren Telefonen oder Computern läuft, ohne unsere privaten Daten in die Cloud zu senden.

Die Audiokomprimierung ist entscheidend dafür, dass Moshi so klein wie möglich ist. Es verwendet einen Audiocodec namens Mimi, der Audiodaten 300-mal kleiner komprimiert als der MP3-Codec. Mimi erfasst sowohl die akustischen Informationen als auch die semantischen Daten in den Audiodaten.

Wenn Sie mit Moshi chatten möchten, können Sie es hier ausprobieren: https://kyutai.org/

Man darf nicht vergessen, dass es sich bei Moshi um einen experimentellen Prototyp handelt, der in nur 6 Monaten von einem Team aus 8 Ingenieuren entwickelt wurde.

Die Webversion ist wirklich fehlerhaft, aber das liegt wahrscheinlich daran, dass die Server mit Nutzern, die es ausprobieren wollen, überlastet sind.

Kyutai sagt, dass es das Modell, den Codec, den Code und die Gewichte bald veröffentlichen wird. Vielleicht müssen wir bis dahin warten, um eine ähnliche Leistung wie in der Demo zu erhalten.

Auch wenn sie ein wenig fehlerhaft ist, war die Demo erfrischend ehrlich im Vergleich zu Big Tech Teasern von Funktionen, die nicht veröffentlicht werden.

Moshi ist ein großartiges Beispiel dafür, was ein kleines Team von KI-Ingenieuren erreichen kann, und man fragt sich, warum wir immer noch darauf warten, dass GPT-4o mit uns spricht.

Join The Future


HEUTE ABONNIEREN

Klar, prägnant, umfassend. Behalten Sie den Überblick über KI-Entwicklungen mit DailyAI

Eugene van der Watt

Eugene kommt aus der Elektronikbranche und liebt alles, was mit Technik zu tun hat. Wenn er eine Pause vom Konsum von KI-Nachrichten einlegt, findet man ihn am Snookertisch.

×

KOSTENLOSES PDF EXKLUSIV
Mit DailyAI immer einen Schritt voraus

Melden Sie sich für unseren wöchentlichen Newsletter an und erhalten Sie exklusiven Zugang zum neuesten eBook von DailyAI: 'Mastering AI Tools: Ihr Leitfaden für mehr Produktivität im Jahr 2024".

*Mit der Anmeldung zu unserem Newsletter akzeptieren Sie unsere Datenschutzbestimmungen und unsere Bedingungen und Konditionen