Ainda estamos à espera que a OpenAI lance o seu assistente de voz GPT-4o, mas um laboratório francês de investigação em IA, sem fins lucrativos, antecipou-se-lhe com o lançamento do Moshi.
Moshi é um assistente de IA de voz em tempo real alimentado pelo modelo Helium 7B que a Kyutai desenvolveu e treinou utilizando uma mistura de texto sintético e dados áudio. O Moshi foi depois afinado em diálogos sintéticos para o ensinar a interagir.
O Moshi consegue compreender e exprimir 70 emoções diferentes e falar em vários estilos e sotaques. A demonstração da sua latência de 200 mili-segundos de ponta a ponta é muito impressionante. Ao ouvir, pensar e falar simultaneamente, as interacções em tempo real são perfeitas, sem pausas incómodas.
Pode não soar tão sensual como o GPT-4o's Sky, que a OpenAI diz não está a imitar a Scarlett Johanssonmas o Moshi responde mais rapidamente e está disponível ao público.
Moshi obteve a sua voz ao ser treinado com amostras de áudio produzidas por um ator vocal a que Kyutai se referiu como "Alice", sem fornecer mais pormenores.
A forma como Moshi interrompe e responde com pausas imperceptíveis faz com que as interacções com o modelo de IA pareçam muito naturais.
Aqui está um exemplo de Moshi a participar num role-play de ficção científica.
Moshi e Alex vão numa aventura espacial 🚀 pic.twitter.com/WRkPCScZ9F
- kyutai (@kyutai_labs) 3 de julho de 2024
O Helium 7B é muito mais pequeno do que o GPT-4o, mas o seu tamanho reduzido significa que pode ser executado em hardware de consumo ou na nuvem utilizando GPUs de baixo consumo.
Durante a demonstração, um engenheiro da Kyutai utilizou um MacBook Pro para mostrar como o Moshi podia ser executado no dispositivo.
Foi um pouco irregular, mas é um sinal promissor de que em breve teremos um assistente de voz com IA de baixa latência a funcionar nos nossos telefones ou computadores sem enviar os nossos dados privados para a nuvem.
A compressão de áudio é crucial para tornar o Moshi tão pequeno quanto possível. Utiliza um codec áudio chamado Mimi que comprime o áudio 300 vezes menos do que o codec MP3. O Mimi capta tanto a informação acústica como os dados semânticos do áudio.
Se quiser conversar com Moshi, pode fazê-lo aqui: https://kyutai.org/
É importante lembrar que o Moshi é um protótipo experimental e que foi criado em apenas 6 meses por uma equipa de 8 engenheiros.
A versão Web tem muitas falhas, mas isso deve-se provavelmente ao facto de os servidores estarem a ficar cheios de utilizadores que querem experimentá-la.
A Kyutai diz que vai lançar publicamente o modelo, o codec, o código e os pesos em breve. Poderemos ter de esperar até lá para obter um desempenho semelhante ao da demonstração.
Apesar de ter alguns bugs, a demonstração foi refrescantemente honesta em comparação com os teasers das grandes tecnologias sobre funcionalidades que não chegam a ser lançadas.
Moshi é um excelente exemplo do que uma pequena equipa de engenheiros de IA pode fazer e faz-nos pensar porque é que ainda estamos à espera que o GPT-4o fale connosco.