O assistente de voz com IA da Kyutai vence a OpenAI no lançamento público

Ainda estamos à espera que a OpenAI lance o seu assistente de voz GPT-4o, mas um laboratório francês de investigação em IA, sem fins lucrativos, antecipou-se-lhe com o lançamento do Moshi.

Moshi é um assistente de IA de voz em tempo real alimentado pelo modelo Helium 7B que a Kyutai desenvolveu e treinou utilizando uma mistura de texto sintético e dados áudio. O Moshi foi depois afinado em diálogos sintéticos para o ensinar a interagir.

O Moshi consegue compreender e exprimir 70 emoções diferentes e falar em vários estilos e sotaques. A demonstração da sua latência de 200 mili-segundos de ponta a ponta é muito impressionante. Ao ouvir, pensar e falar simultaneamente, as interacções em tempo real são perfeitas, sem pausas incómodas.

Pode não soar tão sensual como o GPT-4o's Sky, que a OpenAI diz não está a imitar a Scarlett Johanssonmas o Moshi responde mais rapidamente e está disponível ao público.

Moshi obteve a sua voz ao ser treinado com amostras de áudio produzidas por um ator vocal a que Kyutai se referiu como "Alice", sem fornecer mais pormenores.

A forma como Moshi interrompe e responde com pausas imperceptíveis faz com que as interacções com o modelo de IA pareçam muito naturais.

Aqui está um exemplo de Moshi a participar num role-play de ficção científica.

Moshi e Alex vão numa aventura espacial 🚀 pic.twitter.com/WRkPCScZ9F

- kyutai (@kyutai_labs) 3 de julho de 2024

O Helium 7B é muito mais pequeno do que o GPT-4o, mas o seu tamanho reduzido significa que pode ser executado em hardware de consumo ou na nuvem utilizando GPUs de baixo consumo.

Durante a demonstração, um engenheiro da Kyutai utilizou um MacBook Pro para mostrar como o Moshi podia ser executado no dispositivo.

Foi um pouco irregular, mas é um sinal promissor de que em breve teremos um assistente de voz com IA de baixa latência a funcionar nos nossos telefones ou computadores sem enviar os nossos dados privados para a nuvem.

A compressão de áudio é crucial para tornar o Moshi tão pequeno quanto possível. Utiliza um codec áudio chamado Mimi que comprime o áudio 300 vezes menos do que o codec MP3. O Mimi capta tanto a informação acústica como os dados semânticos do áudio.

Se quiser conversar com Moshi, pode fazê-lo aqui: https://kyutai.org/

É importante lembrar que o Moshi é um protótipo experimental e que foi criado em apenas 6 meses por uma equipa de 8 engenheiros.

A versão Web tem muitas falhas, mas isso deve-se provavelmente ao facto de os servidores estarem a ficar cheios de utilizadores que querem experimentá-la.

A Kyutai diz que vai lançar publicamente o modelo, o codec, o código e os pesos em breve. Poderemos ter de esperar até lá para obter um desempenho semelhante ao da demonstração.

Apesar de ter alguns bugs, a demonstração foi refrescantemente honesta em comparação com os teasers das grandes tecnologias sobre funcionalidades que não chegam a ser lançadas.

Moshi é um excelente exemplo do que uma pequena equipa de engenheiros de IA pode fazer e faz-nos pensar porque é que ainda estamos à espera que o GPT-4o fale connosco.

O assistente de voz com IA da Kyutai bate o OpenAI no lançamento público

Junte-se ao futuro

Eugene van der Watt

ARTIGOS RELACIONADOS

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter