Meta ha presentado Buzón de vozun modelo de IA generativa de última generación para el habla. Funciona de forma similar a los generadores de texto, como ChatGPT, pero genera respuestas de audio en lugar de texto.
Voicebox puede generar audio desde cero o modificar el existente. Es una herramienta muy flexible que puede tomar un clip de audio de 2 segundos de la voz de alguien y utilizarlo para generar un discurso en un idioma distinto conservando la entonación de la voz.
Esto se combina con la generación de texto a voz. Así, puedes "insertar" tu voz en la IA y utilizarla para la generación de texto a voz con tu propia voz. Por ejemplo, si estás de vacaciones y necesitas comunicarte en inglés, francés, español, alemán, polaco o portugués, basta con que escribas tu mensaje en Voicebox, que hablará por ti.
El modelo se entrenó con más de 50.000 horas de habla grabada y transcripciones en 6 idiomas: inglés, francés, español, alemán, polaco y portugués. Es considerablemente más rápido y preciso que otras IA similares centradas en el audio, como VALL-E.
Estos son los 4 usos principales de Voicebox:
- Síntesis de texto a voz en contexto: Voicebox puede generar audio realista a partir de texto. Esto podría utilizarse para crear asistentes virtuales multilingües que permitan a las personas con problemas de voz y audición conversar con mayor naturalidad.
- Transferencia multilingüe de estilos: La IA puede traducir textos a 6 idiomas diferentes, lo que permite una comunicación multilingüe auténtica y natural.
- Eliminación de ruido y edición de voz: Voicebox puede generar voz para editar segmentos dentro de grabaciones de audio. Por ejemplo, puede resintetizar partes del habla corrompidas por el ruido.
- Muestreo de habla diversa: Voicebox puede generar habla representativa en 6 idiomas, lo que resulta ideal para generar datos sintéticos para otros modelos de habla y audio con resultados impresionantes. Los modelos de reconocimiento del habla entrenados con el habla sintética generada por Voicebox rinden casi igual que los modelos entrenados con habla real, con una degradación marginal de la tasa de error de 1%, lo que supone un enorme salto respecto a la degradación de 45 a 70% observada en modelos similares.
Meta aún no ha lanzado Voicebox, alegando preocupaciones sobre su uso indebido. Sin embargo, han publicado un artículo en profundidad sobre el modelo, disponible aquí.
Aunque no hay una estimación oficial de cuándo se podrá utilizar Voicebox, Meta afirma que la herramienta ayudará a los creadores a editar pistas de audio, mejorará la comunicación con las personas con discapacidad visual y permitirá hablar cualquier idioma extranjero con su propia voz.