A Meta apresentou Caixa de vozum modelo de IA generativo de última geração para a fala. Funciona de forma semelhante aos geradores de texto, como o ChatGPT, mas gera áudio em vez de respostas de texto.
O Voicebox pode gerar áudio de raiz ou modificar áudio existente. É uma ferramenta altamente flexível que pode pegar num clip de áudio de 2 segundos da voz de alguém e utilizá-lo para gerar discurso numa língua diferente, mantendo a entoação da voz.
Isto combina-se com a geração de texto para voz. Assim, pode "inserir" a sua voz na IA e utilizá-la para gerar texto para voz com a sua própria voz. Por exemplo, se estiver de férias e precisar de comunicar em inglês, francês, espanhol, alemão, polaco ou português, basta escrever a sua mensagem na Voicebox e ela fala por si.
O modelo foi treinado com mais de 50.000 horas de discurso gravado e transcrições em 6 línguas: Inglês, francês, espanhol, alemão, polaco e português. É consideravelmente mais rápido e mais preciso do que IAs semelhantes centradas no áudio, como o VALL-E.
Eis as 4 principais utilizações da Voicebox:
- Síntese de texto para voz no contexto: A Voicebox pode gerar áudio realista a partir de texto. Este recurso poderá ser utilizado para criar assistentes virtuais multilingues que permitam às pessoas com problemas de voz e de audição conversar de forma mais natural.
- Transferência de estilos entre línguas: A IA pode traduzir texto em 6 línguas diferentes, permitindo uma comunicação multilingue autêntica e natural.
- Denotização e edição de voz: O Voicebox pode gerar discurso para editar segmentos em gravações de áudio. Por exemplo, pode ressintetizar partes do discurso corrompidas por ruído.
- Amostragem de fala diversificada: O Voicebox pode gerar discurso representativo em 6 línguas, o que é ideal para gerar dados sintéticos para outros modelos de discurso e áudio com resultados impressionantes. Os modelos de reconhecimento de fala treinados em discurso sintético gerado pelo Voicebox têm um desempenho quase igual ao dos modelos treinados em discurso real, com uma degradação marginal da taxa de erro de 1%, um salto enorme em relação à degradação de 45 a 70% observada em modelos semelhantes.
A Meta ainda não lançou o Voicebox, alegando preocupações com a sua utilização indevida. No entanto, publicaram um documento pormenorizado sobre o modelo, disponível aqui.
Embora não haja uma estimativa oficial de quando as pessoas poderão utilizar a Voicebox, a Meta afirma que a ferramenta ajudará os criadores a editar faixas de áudio, a melhorar a comunicação com pessoas com deficiência visual e a permitir que as pessoas falem qualquer língua estrangeira com a sua própria voz.