O YouTube está a testar uma integração da ferramenta de dobragem de vídeo com IA da Aloud.
Em voz alta faz parte da incubadora interna Area 120 da Google, anunciada em 2022. Atualmente, o Aloud está numa versão limitada, com uma lista de espera, e o YouTube só deu acesso a algumas centenas de criadores de conteúdos para experimentarem a funcionalidade integrada.
No início de 2023, a Google lançou uma versão experimental da sua opção de faixas de áudio multilingues. Esta opção permitia-lhe carregar o seu vídeo com faixas de áudio em vários idiomas, para que o espetador pudesse selecionar o idioma da faixa de áudio que pretendia ouvir.
O problema é que era preciso criar as faixas áudio das outras línguas ou subcontratá-las a uma empresa de dobragem.
A ferramenta de transcrição automática do Youtube é bastante boa a fornecer legendas, mas as pessoas não vão ao Youtube para ler. Querem ver e ouvir um vídeo na sua língua. E ler legendas enquanto se ouve uma língua que não se compreende é aborrecido.
Com esta nova ferramenta, o YouTube cria automaticamente uma transcrição do seu vídeo e, depois de o aprovar, é criada uma faixa áudio no idioma que selecionar. Atualmente, só é possível dobrar de inglês para português e espanhol, mas estão a planear acrescentar o hindi e o bahasa indonésio em breve.
Se é um criador de conteúdos do YouTube, isto é um fator de mudança. Imagine quantas mais visualizações os seus vídeos poderiam ter se milhões de pessoas pudessem compreender instantaneamente o áudio dos vídeos que carrega.
Sem dúvida que a malta do Youtube também consultou as suas calculadoras e viu sinais de dólar extra. Há um enorme potencial para mais receitas de publicidade se mais milhões de pessoas começarem a ver conteúdos que anteriormente se destinavam apenas ao público de língua inglesa. Os youtubers com contas monetizadas estarão a pensar da mesma forma.
Para além dos idiomas adicionais, o YouTube também está a planear adicionar uma série de outras funcionalidades baseadas em IA. As vozes de IA no vídeo de demonstração do Aloud já soam bastante bem, mas esperam criar faixas de áudio que soem semelhantes à voz do orador original, com a emoção mantida também no áudio dobrado.
O Youtube e a Aloud também estão a trabalhar para que o áudio gerado seja sincronizado com os lábios do orador. E se for difícil fazer com que o áudio sincronize corretamente com os lábios, prevêem eventualmente utilizar a IA para fazer a "regeneração labial", em que o vídeo dos lábios é alterado para se adaptar ao áudio dobrado.
Se estiver a guardar uma série de conteúdos do YouTube em inglês, certifique-se de que entra na lista de espera do Aloud por enquanto. Esperemos que o Youtube abra o acesso à ferramenta integrada em breve.