O assistente de voz com IA da Kyutai bate o OpenAI no lançamento público

7 de julho de 2024

  • O laboratório francês de investigação de IA sem fins lucrativos Kyutai lançou Moshi, um assistente de voz com IA em tempo real
  • Moshi processa emoções e fala em vários estilos e sotaques enquanto ouve simultaneamente
  • O Moshi oferece uma latência de 200 ms de ponta a ponta para interacções em tempo real utilizando hardware de nível de consumidor

Ainda estamos à espera que a OpenAI lance o seu assistente de voz GPT-4o, mas um laboratório francês de investigação em IA, sem fins lucrativos, antecipou-se-lhe com o lançamento do Moshi.

Moshi é um assistente de IA de voz em tempo real alimentado pelo modelo Helium 7B que a Kyutai desenvolveu e treinou utilizando uma mistura de texto sintético e dados áudio. O Moshi foi depois afinado em diálogos sintéticos para o ensinar a interagir.

O Moshi consegue compreender e exprimir 70 emoções diferentes e falar em vários estilos e sotaques. A demonstração da sua latência de 200 mili-segundos de ponta a ponta é muito impressionante. Ao ouvir, pensar e falar simultaneamente, as interacções em tempo real são perfeitas, sem pausas incómodas.

Pode não soar tão sensual como o GPT-4o's Sky, que a OpenAI diz não está a imitar a Scarlett Johanssonmas o Moshi responde mais rapidamente e está disponível ao público.

Moshi obteve a sua voz ao ser treinado com amostras de áudio produzidas por um ator vocal a que Kyutai se referiu como "Alice", sem fornecer mais pormenores.

A forma como Moshi interrompe e responde com pausas imperceptíveis faz com que as interacções com o modelo de IA pareçam muito naturais.

Aqui está um exemplo de Moshi a participar num role-play de ficção científica.

O Helium 7B é muito mais pequeno do que o GPT-4o, mas o seu tamanho reduzido significa que pode ser executado em hardware de consumo ou na nuvem utilizando GPUs de baixo consumo.

Durante a demonstração, um engenheiro da Kyutai utilizou um MacBook Pro para mostrar como o Moshi podia ser executado no dispositivo.

Foi um pouco irregular, mas é um sinal promissor de que em breve teremos um assistente de voz com IA de baixa latência a funcionar nos nossos telefones ou computadores sem enviar os nossos dados privados para a nuvem.

A compressão de áudio é crucial para tornar o Moshi tão pequeno quanto possível. Utiliza um codec áudio chamado Mimi que comprime o áudio 300 vezes menos do que o codec MP3. O Mimi capta tanto a informação acústica como os dados semânticos do áudio.

Se quiser conversar com Moshi, pode fazê-lo aqui: https://kyutai.org/

É importante lembrar que o Moshi é um protótipo experimental e que foi criado em apenas 6 meses por uma equipa de 8 engenheiros.

A versão Web tem muitas falhas, mas isso deve-se provavelmente ao facto de os servidores estarem a ficar cheios de utilizadores que querem experimentá-la.

A Kyutai diz que vai lançar publicamente o modelo, o codec, o código e os pesos em breve. Poderemos ter de esperar até lá para obter um desempenho semelhante ao da demonstração.

Apesar de ter alguns bugs, a demonstração foi refrescantemente honesta em comparação com os teasers das grandes tecnologias sobre funcionalidades que não chegam a ser lançadas.

Moshi é um excelente exemplo do que uma pequena equipa de engenheiros de IA pode fazer e faz-nos pensar porque é que ainda estamos à espera que o GPT-4o fale connosco.

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Eugene van der Watt

Eugene vem de uma formação em engenharia eletrónica e adora tudo o que é tecnologia. Quando faz uma pausa no consumo de notícias sobre IA, pode encontrá-lo à mesa de snooker.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições