Os investigadores da Universidade de Washington desenvolveram um sistema de IA que permite que os auscultadores com cancelamento de ruído isolem e amplifiquem uma única voz num ambiente lotado e ruidoso.
A tecnologia, denominada Target Speech Hearing (TSH), permite aos utilizadores selecionar uma pessoa específica para ouvir, bastando olhar para ela durante alguns segundos.
O sistema TSH aborda um desafio comum enfrentado pelos auscultadores com cancelamento de ruído: embora reduzam eficazmente o ruído ambiente, fazem-no indiscriminadamente, dificultando a audição de sons específicos em que os utilizadores se queiram concentrar.
Como Shyam Gollakota, professor da Universidade de Washington e investigador principal do projeto, explicaA audição de pessoas específicas é um aspeto fundamental da forma como comunicamos e interagimos com outros seres humanos. Mas pode ser realmente difícil, mesmo que não tenha problemas de perda de audição, concentrar-se em pessoas específicas quando se trata de situações ruidosas."
Como funciona
O estudo combina de forma inteligente os auscultadores com cancelamento de ruído e a IA para se concentrar em vozes individuais em ambientes ruidosos e com muita gente.
- Durante a fase de "inscrição", o utilizador olha para o orador alvo durante alguns segundos, permitindo que os microfones binaurais dos auscultadores captem uma amostra de áudio com as características vocais do orador, mesmo na presença de outros oradores e ruídos.
- O sinal binaural captado é processado por uma rede neural que aprende as características do orador alvo, separando a sua voz dos oradores interferentes através de informações direccionais.
- As características aprendidas do orador alvo, representadas como um vetor de incorporação, são depois introduzidas numa rede neuronal diferente concebida para extrair o discurso alvo de uma cacofonia de oradores.
- Depois de as características do altifalante alvo terem sido aprendidas durante a fase de registo, o utilizador pode olhar em qualquer direção, mover a cabeça ou andar de um lado para o outro enquanto continua a ouvir o altifalante alvo.
- O sistema TSH processa continuamente o áudio de entrada, utilizando a incorporação do altifalante aprendida para isolar e amplificar a voz do altifalante alvo, suprimindo outras vozes e o ruído de fundo.
O protótipo atual só pode registar eficazmente um orador específico cuja voz seja a mais alta numa determinada direção, mas a equipa está a trabalhar em melhorando o sistema para lidar com cenários mais complexos com fontes de áudio diversas e variadas.
Samuele Cornell, investigador do Instituto de Tecnologias da Linguagem da Universidade Carnegie Mellon, elogia a investigação pelas suas claras aplicações no mundo real, afirmando: "Penso que é um passo na direção certa. É uma lufada de ar fresco".
Embora o sistema TSH seja atualmente uma prova de conceito, os investigadores estão em negociações para incorporar a tecnologia em marcas populares de auriculares com cancelamento de ruído e torná-la disponível para aparelhos auditivos.
Juntamente com uma melhor análise de áudio e de voz, que deu um salto em frente com GPT-4oCom a ajuda de um sistema de gestão de resíduos, as pessoas com deficiências visuais e auditivas poderão ligar-se melhor ao mundo sensorial que as rodeia.