Голосовой помощник ИИ Kyutai опережает OpenAI по количеству публичных релизов

Мы все еще ждем, когда OpenAI выпустит своего голосового помощника GPT-4o, но французская некоммерческая исследовательская лаборатория искусственного интеллекта опередила ее, выпустив Moshi.

Moshi - это голосовой ИИ-помощник в реальном времени на базе модели Helium 7B, разработанной и обученной компанией Kyutai на основе синтетических текстовых и аудиоданных. Затем Moshi был отлажен на синтетических диалогах, чтобы научить его взаимодействию.

Moshi может понимать и выражать 70 различных эмоций и говорить в разных стилях и с разными акцентами. Демонстрация его сквозной задержки в 200 миллисекунд очень впечатляет. Слушать, думать и говорить одновременно - все это позволяет взаимодействовать в реальном времени без неловких пауз.

Возможно, он звучит не так знойно, как GPT-4o's Sky, который, по мнению OpenAI. не подражает Скарлетт Йоханссон.Но Moshi отвечает быстрее и находится в открытом доступе.

Moshi получила свой голос, обучаясь на аудиообразцах, созданных актером, которого Кютай назвал "Алисой", не раскрывая подробностей.

Благодаря тому, что Moshi перебивает и отвечает с незаметными паузами, взаимодействие с моделью искусственного интеллекта кажется очень естественным.

Вот пример того, как Моши участвует в научно-фантастической ролевой игре.

Моши и Алекс отправляются в космическое приключение 🚀 pic.twitter.com/WRkPCScZ9F

- kyutai (@kyutai_labs) 3 июля 2024 года

Helium 7B намного меньше GPT-4o, но его малый размер позволяет запускать его на оборудовании потребительского класса или в облаке с использованием маломощных GPU.

Во время демонстрации инженер Kyutai использовал MacBook Pro, чтобы показать, как Moshi может работать на устройстве.

Он немного глючил, но это многообещающий знак того, что скоро у нас будет голосовой помощник с искусственным интеллектом, работающий на наших телефонах или компьютерах с низкой задержкой и не отправляющий наши личные данные в облако.

Сжатие аудиофайлов имеет решающее значение для того, чтобы сделать Moshi как можно меньше. В ней используется аудиокодек Mimi, который сжимает звук в 300 раз меньше, чем кодек MP3. Mimi захватывает как акустическую информацию, так и семантические данные в аудио.

Если вы хотите пообщаться с Моши, вы можете попробовать это сделать здесь: https://kyutai.org/

Важно помнить, что Moshi - это экспериментальный прототип, который был создан всего за 6 месяцев командой из 8 инженеров.

Веб-версия действительно глючит, но это, вероятно, потому, что их серверы забиты пользователями, желающими опробовать ее.

Компания Kyutai заявляет, что скоро выпустит модель, кодек, код и весовые коэффициенты. Возможно, нам придется подождать до этого времени, чтобы получить производительность, схожую с демонстрационной.

Даже несмотря на некоторые ошибки, демо-версия была освежающе честной по сравнению с тизерами Big Tech о функциях, которые так и не были выпущены.

Moshi - отличный пример того, что может сделать небольшая команда инженеров по искусственному интеллекту, и заставляет задуматься, почему мы все еще ждем, когда GPT-4o заговорит с нами.

Голосовой помощник ИИ Kyutai опередил OpenAI в выпуске публичной версии

Присоединяйтесь к будущему

Юджин ван дер Ватт

СВЯЗАННЫЕ СТАТЬИ

Игровая индустрия переживает кризис среднего возраста - является ли ИИ ее будущим?

OpenAI представляет API реального времени и другие возможности для разработчиков

Губернатор Калифорнии Гэвин Ньюсом наложил вето на законопроект SB 1047 о безопасности искусственного интеллекта

Как Китай участвует в гонке ИИ? Технологические гиганты и стартапы расширяют границы