A OpenAI diz que o Voice Engine pode ser demasiado arriscado para ser lançado

1 de abril de 2024

  • A OpenAI revelou o Voice Engine que clona uma voz humana a partir de apenas 15 segundos de discurso
  • O Voice Engine foi testado por um pequeno grupo de parceiros, mas a OpenAI está relutante em divulgá-lo publicamente
  • A OpenAI adiciona uma marca de água ao áudio clonado do Voice Engine, mas diz que são necessárias mais medidas de segurança

A OpenAI afirma ter realizado um teste em pequena escala do seu novo produto de clonagem de voz, o Voice Engine, com alguns parceiros seleccionados. Os resultados mostram aplicações promissoras para a tecnologia, mas as preocupações com a segurança podem impedir o seu lançamento.

A OpenAI afirma que o Voice Engine pode clonar a voz de um ser humano com base numa única gravação de 15 segundos da sua voz. A ferramenta pode então gerar "um discurso de som natural que se assemelha muito ao orador original".

Uma vez clonado, o Voice Engine pode transformar entradas de texto em discurso audível utilizando "vozes emotivas e realistas". A capacidade da ferramenta torna possíveis aplicações interessantes, mas também levanta sérios problemas de segurança.

Casos de utilização promissores

A OpenAI começou a testar o Voice Engine no final do ano passado para ver como um pequeno grupo de participantes seleccionados poderia utilizar a tecnologia.

Alguns dos exemplos de como os parceiros de teste do Voice Engine utilizaram o produto são:

  • Ensino adaptativo - A Age of Learning utilizou o Voice Engine para prestar assistência de leitura a crianças, criar conteúdos de voz-off para material didático e fornecer respostas verbais personalizadas para interagir com os alunos.
  • Tradução de conteúdos - A HeyGen utilizou o Voice Engine para a tradução de vídeos para que o marketing de produtos e as demonstrações de vendas pudessem chegar a um mercado mais vasto. O áudio traduzido mantém o sotaque nativo da pessoa. Assim, quando o áudio de um falante nativo de francês é traduzido para inglês, continua a ouvir-se o seu sotaque francês.
  • Prestar serviços sociais mais alargados - A Dimagi dá formação a profissionais de saúde em ambientes remotos. Utilizou o Voice Engine para dar formação e feedback interativo aos profissionais de saúde em línguas pouco divulgadas.
  • Apoio a pessoas não verbais - O Livox permite que as pessoas não verbais comuniquem através de dispositivos de comunicação alternativos. O Voice Engine permite que estas pessoas escolham uma voz que melhor as represente, em vez de uma voz mais robótica.
  • Ajudar os doentes a recuperar a voz - A Lifespan lançou um programa-piloto que oferece o Voice Engine a pessoas com deficiências da fala causadas por cancro ou doenças neurológicas.

O Voice Engine não é a primeira ferramenta de clonagem de vozes com IA, mas as amostras no Publicação no blogue da OpenAI apontam para que represente o estado da arte e pode até ser melhor do que o ElevenLabs.

Eis apenas um exemplo da inflexão natural e das características emotivas que pode gerar.

Preocupações de segurança

A OpenAI disse que ficou impressionada com os casos de utilização que os participantes no teste apresentaram, mas que seria necessário adotar mais medidas de segurança antes de a empresa decidir "se e como implementar esta tecnologia à escala".

A OpenAI afirma que a tecnologia capaz de reproduzir com precisão a voz de alguém "tem sérios riscos, que são especialmente importantes num ano de eleições". Chamadas automáticas falsas de Biden e o vídeo falso da candidata ao Senado Kari Lake são casos exemplares.

Para além das restrições claras nas suas políticas gerais de utilização, os participantes no ensaio tinham de ter "consentimento explícito e informado do orador original" e não estavam autorizados a construir um produto que permitisse às pessoas criar as suas próprias vozes.

A OpenAI afirma ter implementado outras medidas de segurança, incluindo uma marca de água para o áudio. Não explicou exatamente como, mas disse que podia efetuar uma "monitorização proactiva" da utilização do Voice Engine.

Alguns outros grandes actores da indústria da IA também estão preocupados com a possibilidade de este tipo de tecnologia se espalhar.

O que é que se segue?

Será que o resto de nós vai poder brincar com o Voice Engine? É improvável, e talvez isso seja uma coisa boa. O potencial de utilização maliciosa é enorme.

A OpenAI já está a recomendar que instituições como os bancos eliminem gradualmente a autenticação por voz como medida de segurança.

O Voice Engine tem uma marca de água de áudio incorporada, mas a OpenAI diz que é necessário mais trabalho para identificar quando o conteúdo audiovisual é gerado por IA.

Mesmo que a OpenAI decida não lançar o Voice Engine, outros fá-lo-ão. Os dias em que podíamos confiar nos nossos olhos e ouvidos passaram à história.

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Eugene van der Watt

Eugene vem de uma formação em engenharia eletrónica e adora tudo o que é tecnologia. Quando faz uma pausa no consumo de notícias sobre IA, pode encontrá-lo à mesa de snooker.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições