OpenAI dice que el motor de voz podría ser demasiado arriesgado para publicarlo

1 de abril de 2024

  • OpenAI revela un motor de voz que clona una voz humana a partir de sólo 15 segundos de discurso
  • El motor de voz ha sido probado por un pequeño grupo de socios, pero OpenAI se resiste a hacerlo público.
  • OpenAI añade una marca de agua al audio clonado de Voice Engine, pero dice que se necesitan más medidas de seguridad

OpenAI afirma haber realizado una prueba a pequeña escala de su nuevo producto de clonación de voz Voice Engine con algunos socios selectos. Los resultados muestran aplicaciones prometedoras de la tecnología, pero la seguridad podría impedir su comercialización.

OpenAI afirma que Voice Engine puede clonar la voz de un ser humano a partir de una única grabación de 15 segundos de su voz. A continuación, la herramienta puede generar "un habla de sonido natural que se asemeja mucho al hablante original".

Una vez clonado, Voice Engine puede convertir entradas de texto en voz audible mediante "voces emotivas y realistas". La capacidad de la herramienta hace posibles aplicaciones apasionantes, pero también plantea graves problemas de seguridad.

Casos de uso prometedores

OpenAI empezó a probar Voice Engine a finales del año pasado para ver cómo un pequeño grupo de participantes selectos podía utilizar la tecnología.

Algunos de los ejemplos de cómo los socios de prueba de Voice Engine han utilizado el producto son:

  • Enseñanza adaptativa - Age of Learning utilizó Voice Engine para proporcionar ayuda en la lectura a los niños, crear contenidos de voz en off para material didáctico y ofrecer respuestas verbales personalizadas para interactuar con los alumnos.
  • Traducir contenidos - HeyGen utilizó Voice Engine para la traducción de vídeos con el fin de que el marketing de productos y las demostraciones de ventas pudieran llegar a un mercado más amplio. El audio traducido conserva el acento nativo de la persona. Así, cuando se traduce el audio de un hablante nativo de francés al inglés, se sigue oyendo su acento francés.
  • Prestar servicios sociales más amplios - Dimagi forma a trabajadores sanitarios en entornos remotos. Utiliza Voice Engine para impartir formación e información interactiva a los trabajadores sanitarios en lenguas desatendidas.
  • Apoyar a las personas no verbales - Livox permite a las personas no verbales comunicarse mediante dispositivos de comunicación alternativos. Voice Engine permite a estas personas elegir la voz que mejor las represente en lugar de algo que suene más robótico.
  • Ayudar a los pacientes a recuperar la voz - Lifespan puso a prueba un programa que ofrecía Voice Engine a personas con deficiencias del habla debidas al cáncer o a afecciones neurológicas.

Voice Engine no es la primera herramienta de clonación de voces de IA, pero las muestras de Entrada en el blog de OpenAI apuntan a que representa el estado del arte e incluso puede ser mejor que ElevenLabs.

He aquí un ejemplo de la inflexión natural y las características emotivas que puede generar.

Cuestiones de seguridad

OpenAI dijo que estaba impresionada con los casos de uso que se les ocurrieron a los participantes en las pruebas, pero que sería necesario establecer más medidas de seguridad antes de que la empresa decidiera "si desplegar esta tecnología a escala y cómo hacerlo."

OpenAI dice que la tecnología que puede reproducir con precisión la voz de alguien "tiene serios riesgos, que son especialmente prioritarios en un año electoral." Llamadas falsas de Biden y el vídeo falso de la candidata al Senado Kari Lake son ejemplos de ello.

Además de las claras restricciones de sus políticas generales de uso, los participantes en el ensayo debían contar con el "consentimiento explícito e informado del hablante original" y no se les permitía crear un producto que permitiera a la gente crear sus propias voces.

OpenAI afirma haber implementado otras medidas de seguridad, incluida una marca de agua de audio. No explicó exactamente cómo, pero dijo que podía realizar una "supervisión proactiva" del uso de Voice Engine.

Otras grandes empresas del sector de la inteligencia artificial también están preocupadas por la difusión de este tipo de tecnología.

¿Y ahora qué?

¿Llegaremos los demás a jugar con Voice Engine? Es poco probable, y quizá eso sea bueno. El potencial de uso malicioso es enorme.

OpenAI ya está recomendando que instituciones como los bancos eliminen gradualmente la autenticación por voz como medida de seguridad.

Voice Engine tiene una marca de agua de audio incrustada, pero OpenAI afirma que es necesario seguir trabajando para identificar cuándo el contenido audiovisual está generado por IA.

Aunque OpenAI decida no lanzar Voice Engine, otros lo harán. Los días en que podías confiar en tus ojos y oídos han pasado a la historia.

Únete al futuro


SUSCRÍBETE HOY

Claro, conciso y completo. Conozca los avances de la IA con DailyAI

Eugene van der Watt

Eugene es ingeniero electrónico y le encanta todo lo relacionado con la tecnología. Cuando descansa de consumir noticias sobre IA, lo encontrará jugando al billar.

×

PDF GRATUITO EXCLUSIVO
Adelántese con DailyAI

Suscríbase a nuestro boletín semanal y reciba acceso exclusivo al último eBook de DailyAI: 'Mastering AI Tools: Su guía 2024 para mejorar la productividad'.

*Al suscribirse a nuestro boletín de noticias, acepta nuestra política de privacidad. Política de privacidad y nuestro Condiciones generales