OpenAI afirma haber realizado una prueba a pequeña escala de su nuevo producto de clonación de voz Voice Engine con algunos socios selectos. Los resultados muestran aplicaciones prometedoras de la tecnología, pero la seguridad podría impedir su comercialización.
OpenAI afirma que Voice Engine puede clonar la voz de un ser humano a partir de una única grabación de 15 segundos de su voz. A continuación, la herramienta puede generar "un habla de sonido natural que se asemeja mucho al hablante original".
Una vez clonado, Voice Engine puede convertir entradas de texto en voz audible mediante "voces emotivas y realistas". La capacidad de la herramienta hace posibles aplicaciones apasionantes, pero también plantea graves problemas de seguridad.
Casos de uso prometedores
OpenAI empezó a probar Voice Engine a finales del año pasado para ver cómo un pequeño grupo de participantes selectos podía utilizar la tecnología.
Algunos de los ejemplos de cómo los socios de prueba de Voice Engine han utilizado el producto son:
- Enseñanza adaptativa - Age of Learning utilizó Voice Engine para proporcionar ayuda en la lectura a los niños, crear contenidos de voz en off para material didáctico y ofrecer respuestas verbales personalizadas para interactuar con los alumnos.
- Traducir contenidos - HeyGen utilizó Voice Engine para la traducción de vídeos con el fin de que el marketing de productos y las demostraciones de ventas pudieran llegar a un mercado más amplio. El audio traducido conserva el acento nativo de la persona. Así, cuando se traduce el audio de un hablante nativo de francés al inglés, se sigue oyendo su acento francés.
- Prestar servicios sociales más amplios - Dimagi forma a trabajadores sanitarios en entornos remotos. Utiliza Voice Engine para impartir formación e información interactiva a los trabajadores sanitarios en lenguas desatendidas.
- Apoyar a las personas no verbales - Livox permite a las personas no verbales comunicarse mediante dispositivos de comunicación alternativos. Voice Engine permite a estas personas elegir la voz que mejor las represente en lugar de algo que suene más robótico.
- Ayudar a los pacientes a recuperar la voz - Lifespan puso a prueba un programa que ofrecía Voice Engine a personas con deficiencias del habla debidas al cáncer o a afecciones neurológicas.
Voice Engine no es la primera herramienta de clonación de voces de IA, pero las muestras de Entrada en el blog de OpenAI apuntan a que representa el estado del arte e incluso puede ser mejor que ElevenLabs.
He aquí un ejemplo de la inflexión natural y las características emotivas que puede generar.
OpenAI acaba de lanzar Voice Engine,
Utiliza la entrada de texto y una única muestra de audio de 15 segundos para generar un habla natural muy parecida a la del hablante original.
El audio de referencia y el generado son muy parecidos y difíciles de diferenciar.
Más detalles en 🧵 pic.twitter.com/tJRrCO2WZP- AshutoshShrivastava (@ai_for_success) 29 de marzo de 2024
Cuestiones de seguridad
OpenAI dijo que estaba impresionada con los casos de uso que se les ocurrieron a los participantes en las pruebas, pero que sería necesario establecer más medidas de seguridad antes de que la empresa decidiera "si desplegar esta tecnología a escala y cómo hacerlo."
OpenAI dice que la tecnología que puede reproducir con precisión la voz de alguien "tiene serios riesgos, que son especialmente prioritarios en un año electoral." Llamadas falsas de Biden y el vídeo falso de la candidata al Senado Kari Lake son ejemplos de ello.
Además de las claras restricciones de sus políticas generales de uso, los participantes en el ensayo debían contar con el "consentimiento explícito e informado del hablante original" y no se les permitía crear un producto que permitiera a la gente crear sus propias voces.
OpenAI afirma haber implementado otras medidas de seguridad, incluida una marca de agua de audio. No explicó exactamente cómo, pero dijo que podía realizar una "supervisión proactiva" del uso de Voice Engine.
Otras grandes empresas del sector de la inteligencia artificial también están preocupadas por la difusión de este tipo de tecnología.
La IA por voz es, con diferencia, la modalidad más peligrosa.
La voz sobrehumana y persuasiva es algo ante lo que tenemos mínimas defensas.
Averiguar qué hacer al respecto debería ser una de nuestras principales prioridades.
(Teníamos modelos de sota pero no los lanzamos por esta razón eg https://t.co/vjY99uCdTl) https://t.co/fKIZrVQCml
- Emad acc/acc (@EMostaque) 29 de marzo de 2024
¿Y ahora qué?
¿Llegaremos los demás a jugar con Voice Engine? Es poco probable, y quizá eso sea bueno. El potencial de uso malicioso es enorme.
OpenAI ya está recomendando que instituciones como los bancos eliminen gradualmente la autenticación por voz como medida de seguridad.
Voice Engine tiene una marca de agua de audio incrustada, pero OpenAI afirma que es necesario seguir trabajando para identificar cuándo el contenido audiovisual está generado por IA.
Aunque OpenAI decida no lanzar Voice Engine, otros lo harán. Los días en que podías confiar en tus ojos y oídos han pasado a la historia.