A OpenAI afirma ter realizado um teste em pequena escala do seu novo produto de clonagem de voz, o Voice Engine, com alguns parceiros seleccionados. Os resultados mostram aplicações promissoras para a tecnologia, mas as preocupações com a segurança podem impedir o seu lançamento.
A OpenAI afirma que o Voice Engine pode clonar a voz de um ser humano com base numa única gravação de 15 segundos da sua voz. A ferramenta pode então gerar "um discurso de som natural que se assemelha muito ao orador original".
Uma vez clonado, o Voice Engine pode transformar entradas de texto em discurso audível utilizando "vozes emotivas e realistas". A capacidade da ferramenta torna possíveis aplicações interessantes, mas também levanta sérios problemas de segurança.
Casos de utilização promissores
A OpenAI começou a testar o Voice Engine no final do ano passado para ver como um pequeno grupo de participantes seleccionados poderia utilizar a tecnologia.
Alguns dos exemplos de como os parceiros de teste do Voice Engine utilizaram o produto são:
- Ensino adaptativo - A Age of Learning utilizou o Voice Engine para prestar assistência de leitura a crianças, criar conteúdos de voz-off para material didático e fornecer respostas verbais personalizadas para interagir com os alunos.
- Tradução de conteúdos - A HeyGen utilizou o Voice Engine para a tradução de vídeos para que o marketing de produtos e as demonstrações de vendas pudessem chegar a um mercado mais vasto. O áudio traduzido mantém o sotaque nativo da pessoa. Assim, quando o áudio de um falante nativo de francês é traduzido para inglês, continua a ouvir-se o seu sotaque francês.
- Prestar serviços sociais mais alargados - A Dimagi dá formação a profissionais de saúde em ambientes remotos. Utilizou o Voice Engine para dar formação e feedback interativo aos profissionais de saúde em línguas pouco divulgadas.
- Apoio a pessoas não verbais - O Livox permite que as pessoas não verbais comuniquem através de dispositivos de comunicação alternativos. O Voice Engine permite que estas pessoas escolham uma voz que melhor as represente, em vez de uma voz mais robótica.
- Ajudar os doentes a recuperar a voz - A Lifespan lançou um programa-piloto que oferece o Voice Engine a pessoas com deficiências da fala causadas por cancro ou doenças neurológicas.
O Voice Engine não é a primeira ferramenta de clonagem de vozes com IA, mas as amostras no Publicação no blogue da OpenAI apontam para que represente o estado da arte e pode até ser melhor do que o ElevenLabs.
Eis apenas um exemplo da inflexão natural e das características emotivas que pode gerar.
A OpenAI acaba de lançar o Voice Engine,
Utiliza a introdução de texto e uma única amostra de áudio de 15 segundos para gerar um discurso de som natural que se assemelha muito ao orador original.
O áudio de referência e o áudio gerado são muito próximos e difíceis de diferenciar.
Mais pormenores em 🧵 pic.twitter.com/tJRrCO2WZP- AshutoshShrivastava (@ai_for_success) 29 de março de 2024
Preocupações de segurança
A OpenAI disse que ficou impressionada com os casos de utilização que os participantes no teste apresentaram, mas que seria necessário adotar mais medidas de segurança antes de a empresa decidir "se e como implementar esta tecnologia à escala".
A OpenAI afirma que a tecnologia capaz de reproduzir com precisão a voz de alguém "tem sérios riscos, que são especialmente importantes num ano de eleições". Chamadas automáticas falsas de Biden e o vídeo falso da candidata ao Senado Kari Lake são casos exemplares.
Para além das restrições claras nas suas políticas gerais de utilização, os participantes no ensaio tinham de ter "consentimento explícito e informado do orador original" e não estavam autorizados a construir um produto que permitisse às pessoas criar as suas próprias vozes.
A OpenAI afirma ter implementado outras medidas de segurança, incluindo uma marca de água para o áudio. Não explicou exatamente como, mas disse que podia efetuar uma "monitorização proactiva" da utilização do Voice Engine.
Alguns outros grandes actores da indústria da IA também estão preocupados com a possibilidade de este tipo de tecnologia se espalhar.
A IA vocal é, de longe, a modalidade mais perigosa.
A voz sobre-humana e persuasiva é algo a que temos defesas mínimas.
Descobrir o que fazer a este respeito deveria ser uma das nossas principais prioridades.
(Tínhamos modelos sota mas não lançámos por esta razão, por exemplo https://t.co/vjY99uCdTl) https://t.co/fKIZrVQCml
- Emad acc/acc (@EMostaque) 29 de março de 2024
O que é que se segue?
Será que o resto de nós vai poder brincar com o Voice Engine? É improvável, e talvez isso seja uma coisa boa. O potencial de utilização maliciosa é enorme.
A OpenAI já está a recomendar que instituições como os bancos eliminem gradualmente a autenticação por voz como medida de segurança.
O Voice Engine tem uma marca de água de áudio incorporada, mas a OpenAI diz que é necessário mais trabalho para identificar quando o conteúdo audiovisual é gerado por IA.
Mesmo que a OpenAI decida não lançar o Voice Engine, outros fá-lo-ão. Os dias em que podíamos confiar nos nossos olhos e ouvidos passaram à história.