Investigadores de la Universidad de Washington han desarrollado un sistema de inteligencia artificial que permite a los auriculares con supresión de ruido aislar y amplificar una sola voz en un entorno ruidoso y abarrotado.
La tecnología, denominada Target Speech Hearing (TSH), permite a los usuarios seleccionar a una persona concreta para escucharla con sólo mirarla durante unos segundos.
El sistema TSH resuelve un problema habitual de los auriculares con supresión de ruido: aunque reducen eficazmente el ruido ambiente, lo hacen de forma indiscriminada, lo que dificulta que los usuarios escuchen sonidos específicos en los que podrían querer concentrarse.
Como afirma Shyam Gollakota, profesor de la Universidad de Washington e investigador principal del proyecto, explicaEscuchar a personas concretas es un aspecto fundamental de nuestra forma de comunicarnos e interactuar con otros seres humanos. Pero concentrarse en personas concretas en situaciones ruidosas puede ser todo un reto, incluso si no se tiene ningún problema de pérdida auditiva."
Cómo funciona
En estudiar combina inteligentemente auriculares con cancelación de ruido e inteligencia artificial para localizar voces individuales en entornos ruidosos y abarrotados.
- Durante la fase de "inscripción", el usuario mira al orador objetivo durante unos segundos, lo que permite a los micrófonos binaurales de los auriculares captar una muestra de audio que contiene las características vocales del orador, incluso en presencia de otros oradores y ruidos.
- La señal binaural captada es procesada por una red neuronal que aprende las características del orador objetivo, separando su voz de la de los oradores que interfieren mediante información direccional.
- Las características aprendidas del hablante objetivo, representadas como un vector de incrustación, se introducen en una red neuronal diferente diseñada para extraer el habla objetivo de una cacofonía de hablantes.
- Una vez aprendidas las características del hablante objetivo durante la fase de inscripción, el usuario puede mirar en cualquier dirección, mover la cabeza o caminar sin dejar de oír al hablante objetivo.
- El sistema TSH procesa continuamente el audio entrante, utilizando la incrustación de locutor aprendida para aislar y amplificar la voz del locutor objetivo mientras suprime otras voces y el ruido de fondo.
El prototipo actual sólo puede inscribir eficazmente a un interlocutor cuya voz sea la más fuerte en una dirección determinada, pero el equipo está trabajando en mejorar el sistema para manejar escenarios más complejos con fuentes de audio diversas y variadas.
Samuele Cornell, investigador del Instituto de Tecnologías del Lenguaje de la Universidad Carnegie Mellon, alaba la investigación por sus claras aplicaciones en el mundo real: "Creo que es un paso en la dirección correcta. Es un soplo de aire fresco".
Aunque el sistema TSH es actualmente una prueba de concepto, los investigadores están en conversaciones para integrar la tecnología en marcas populares de auriculares con cancelación de ruido y ponerla a disposición de los audífonos.
Junto con la mejora del análisis de audio y voz, que dio un salto adelante con GPT-4oLas personas con deficiencias visuales y auditivas podrán conectar mejor con el mundo sensorial que les rodea.