Голосовой помощник ИИ Kyutai опередил OpenAI в выпуске публичной версии

7 июля 2024 года

  • Французская некоммерческая исследовательская лаборатория искусственного интеллекта Kyutai выпустила Moshi, голосового помощника ИИ в реальном времени
  • Моши обрабатывает эмоции и говорит в разных стилях и с разными акцентами, одновременно слушая
  • Moshi обеспечивает сквозную задержку 200 мс для взаимодействия в реальном времени с помощью оборудования потребительского класса

Мы все еще ждем, когда OpenAI выпустит своего голосового помощника GPT-4o, но французская некоммерческая исследовательская лаборатория искусственного интеллекта опередила ее, выпустив Moshi.

Moshi - это голосовой ИИ-помощник в реальном времени на базе модели Helium 7B, разработанной и обученной компанией Kyutai на основе синтетических текстовых и аудиоданных. Затем Moshi был отлажен на синтетических диалогах, чтобы научить его взаимодействию.

Moshi может понимать и выражать 70 различных эмоций и говорить в разных стилях и с разными акцентами. Демонстрация его сквозной задержки в 200 миллисекунд очень впечатляет. Слушать, думать и говорить одновременно - все это позволяет взаимодействовать в реальном времени без неловких пауз.

Возможно, он звучит не так знойно, как GPT-4o's Sky, который, по мнению OpenAI. не подражает Скарлетт Йоханссон.Но Moshi отвечает быстрее и находится в открытом доступе.

Moshi получила свой голос, обучаясь на аудиообразцах, созданных актером, которого Кютай назвал "Алисой", не раскрывая подробностей.

Благодаря тому, что Moshi перебивает и отвечает с незаметными паузами, взаимодействие с моделью искусственного интеллекта кажется очень естественным.

Вот пример того, как Моши участвует в научно-фантастической ролевой игре.

Helium 7B намного меньше GPT-4o, но его малый размер позволяет запускать его на оборудовании потребительского класса или в облаке с использованием маломощных GPU.

Во время демонстрации инженер Kyutai использовал MacBook Pro, чтобы показать, как Moshi может работать на устройстве.

Он немного глючил, но это многообещающий знак того, что скоро у нас будет голосовой помощник с искусственным интеллектом, работающий на наших телефонах или компьютерах с низкой задержкой и не отправляющий наши личные данные в облако.

Сжатие аудиофайлов имеет решающее значение для того, чтобы сделать Moshi как можно меньше. В ней используется аудиокодек Mimi, который сжимает звук в 300 раз меньше, чем кодек MP3. Mimi захватывает как акустическую информацию, так и семантические данные в аудио.

Если вы хотите пообщаться с Моши, вы можете попробовать это сделать здесь: https://kyutai.org/

Важно помнить, что Moshi - это экспериментальный прототип, который был создан всего за 6 месяцев командой из 8 инженеров.

Веб-версия действительно глючит, но это, вероятно, потому, что их серверы забиты пользователями, желающими опробовать ее.

Компания Kyutai заявляет, что скоро выпустит модель, кодек, код и весовые коэффициенты. Возможно, нам придется подождать до этого времени, чтобы получить производительность, схожую с демонстрационной.

Даже несмотря на некоторые ошибки, демо-версия была освежающе честной по сравнению с тизерами Big Tech о функциях, которые так и не были выпущены.

Moshi - отличный пример того, что может сделать небольшая команда инженеров по искусственному интеллекту, и заставляет задуматься, почему мы все еще ждем, когда GPT-4o заговорит с нами.

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Юджин ван дер Ватт

Юджин - выходец из электронной инженерии и обожает все, что связано с техникой. Когда он отдыхает от чтения новостей об искусственном интеллекте, вы можете найти его за столом для игры в снукер.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения