Мы все еще ждем, когда OpenAI выпустит своего голосового помощника GPT-4o, но французская некоммерческая исследовательская лаборатория искусственного интеллекта опередила ее, выпустив Moshi.
Moshi - это голосовой ИИ-помощник в реальном времени на базе модели Helium 7B, разработанной и обученной компанией Kyutai на основе синтетических текстовых и аудиоданных. Затем Moshi был отлажен на синтетических диалогах, чтобы научить его взаимодействию.
Moshi может понимать и выражать 70 различных эмоций и говорить в разных стилях и с разными акцентами. Демонстрация его сквозной задержки в 200 миллисекунд очень впечатляет. Слушать, думать и говорить одновременно - все это позволяет взаимодействовать в реальном времени без неловких пауз.
Возможно, он звучит не так знойно, как GPT-4o's Sky, который, по мнению OpenAI. не подражает Скарлетт Йоханссон.Но Moshi отвечает быстрее и находится в открытом доступе.
Moshi получила свой голос, обучаясь на аудиообразцах, созданных актером, которого Кютай назвал "Алисой", не раскрывая подробностей.
Благодаря тому, что Moshi перебивает и отвечает с незаметными паузами, взаимодействие с моделью искусственного интеллекта кажется очень естественным.
Вот пример того, как Моши участвует в научно-фантастической ролевой игре.
Моши и Алекс отправляются в космическое приключение 🚀 pic.twitter.com/WRkPCScZ9F
- kyutai (@kyutai_labs) 3 июля 2024 года
Helium 7B намного меньше GPT-4o, но его малый размер позволяет запускать его на оборудовании потребительского класса или в облаке с использованием маломощных GPU.
Во время демонстрации инженер Kyutai использовал MacBook Pro, чтобы показать, как Moshi может работать на устройстве.
Он немного глючил, но это многообещающий знак того, что скоро у нас будет голосовой помощник с искусственным интеллектом, работающий на наших телефонах или компьютерах с низкой задержкой и не отправляющий наши личные данные в облако.
Сжатие аудиофайлов имеет решающее значение для того, чтобы сделать Moshi как можно меньше. В ней используется аудиокодек Mimi, который сжимает звук в 300 раз меньше, чем кодек MP3. Mimi захватывает как акустическую информацию, так и семантические данные в аудио.
Если вы хотите пообщаться с Моши, вы можете попробовать это сделать здесь: https://kyutai.org/
Важно помнить, что Moshi - это экспериментальный прототип, который был создан всего за 6 месяцев командой из 8 инженеров.
Веб-версия действительно глючит, но это, вероятно, потому, что их серверы забиты пользователями, желающими опробовать ее.
Компания Kyutai заявляет, что скоро выпустит модель, кодек, код и весовые коэффициенты. Возможно, нам придется подождать до этого времени, чтобы получить производительность, схожую с демонстрационной.
Даже несмотря на некоторые ошибки, демо-версия была освежающе честной по сравнению с тизерами Big Tech о функциях, которые так и не были выпущены.
Moshi - отличный пример того, что может сделать небольшая команда инженеров по искусственному интеллекту, и заставляет задуматься, почему мы все еще ждем, когда GPT-4o заговорит с нами.