Wir warten immer noch darauf, dass OpenAI seinen Sprachassistenten GPT-4o veröffentlicht, aber ein französisches gemeinnütziges KI-Forschungslabor ist ihm mit der Veröffentlichung von Moshi zuvorgekommen.
Moshi ist ein Echtzeit-KI-Sprachassistent, der auf dem Modell Helium 7B basiert, das Kyutai entwickelt und mit einer Mischung aus synthetischen Text- und Audiodaten trainiert hat. Moshi wurde dann mit synthetischen Dialogen feinabgestimmt, um ihm beizubringen, wie er interagieren soll.
Moshi kann 70 verschiedene Emotionen verstehen und ausdrücken und in verschiedenen Stilen und Akzenten sprechen. Die Demonstration der End-to-End-Latenz von 200 Millisekunden ist sehr beeindruckend. Durch das gleichzeitige Hören, Denken und Sprechen sind die Echtzeit-Interaktionen nahtlos und ohne unangenehme Pausen.
Es klingt vielleicht nicht so schwül wie GPT-4o's Sky, das laut OpenAI imitiert nicht Scarlett Johanssonaber Moshi antwortet schneller und ist öffentlich zugänglich.
Moshi erhielt seine Stimme, indem es auf Hörproben trainiert wurde, die von einem Synchronsprecher produziert wurden, den Kyutai als "Alice" bezeichnete, ohne weitere Einzelheiten zu nennen.
Die Art und Weise, wie Moshi unterbricht und mit unmerklichen Pausen reagiert, lässt die Interaktionen mit dem KI-Modell sehr natürlich erscheinen.
Hier ist ein Beispiel dafür, wie Moshi an einem Sci-Fi-Rollenspiel teilnimmt.
Moshi und Alex gehen auf ein Weltraumabenteuer 🚀. pic.twitter.com/WRkPCScZ9F
- kyutai (@kyutai_labs) 3. Juli 2024
Helium 7B ist viel kleiner als GPT-4o, aber seine geringe Größe bedeutet, dass Sie es auf Consumer-Hardware oder in der Cloud mit stromsparenden GPUs betreiben können.
Während der Vorführung zeigte ein Kyutai-Ingenieur anhand eines MacBook Pro, wie Moshi auf dem Gerät ausgeführt werden kann.
Es war ein wenig problematisch, aber es ist ein vielversprechendes Zeichen dafür, dass wir bald einen KI-Sprachassistenten mit geringer Latenz haben werden, der auf unseren Telefonen oder Computern läuft, ohne unsere privaten Daten in die Cloud zu senden.
Die Audiokomprimierung ist entscheidend dafür, dass Moshi so klein wie möglich ist. Es verwendet einen Audiocodec namens Mimi, der Audiodaten 300-mal kleiner komprimiert als der MP3-Codec. Mimi erfasst sowohl die akustischen Informationen als auch die semantischen Daten in den Audiodaten.
Wenn Sie mit Moshi chatten möchten, können Sie es hier ausprobieren: https://kyutai.org/
Man darf nicht vergessen, dass es sich bei Moshi um einen experimentellen Prototyp handelt, der in nur 6 Monaten von einem Team aus 8 Ingenieuren entwickelt wurde.
Die Webversion ist wirklich fehlerhaft, aber das liegt wahrscheinlich daran, dass die Server mit Nutzern, die es ausprobieren wollen, überlastet sind.
Kyutai sagt, dass es das Modell, den Codec, den Code und die Gewichte bald veröffentlichen wird. Vielleicht müssen wir bis dahin warten, um eine ähnliche Leistung wie in der Demo zu erhalten.
Auch wenn sie ein wenig fehlerhaft ist, war die Demo erfrischend ehrlich im Vergleich zu Big Tech Teasern von Funktionen, die nicht veröffentlicht werden.
Moshi ist ein großartiges Beispiel dafür, was ein kleines Team von KI-Ingenieuren erreichen kann, und man fragt sich, warum wir immer noch darauf warten, dass GPT-4o mit uns spricht.