I ricercatori dell'Università di Washington hanno sviluppato un sistema di intelligenza artificiale che consente alle cuffie a cancellazione di rumore di isolare e amplificare una singola voce in un ambiente affollato e rumoroso.
La tecnologia, chiamata Target Speech Hearing (TSH), consente agli utenti di selezionare una persona specifica da ascoltare semplicemente guardandola per qualche secondo.
Il sistema TSH risolve un problema comune alle cuffie con cancellazione del rumore: pur riducendo efficacemente il rumore ambientale, lo fanno in modo indiscriminato, rendendo difficile per gli utenti sentire i suoni specifici su cui vorrebbero concentrarsi.
Come spiega Shyam Gollakota, professore dell'Università di Washington e ricercatore capo del progetto, spiegaAscoltare persone specifiche è un aspetto fondamentale del nostro modo di comunicare e di interagire con gli altri esseri umani. Ma può diventare davvero difficile, anche se non si hanno problemi di udito, concentrarsi su persone specifiche quando si tratta di situazioni rumorose".
Come funziona
Il studio combina in modo intelligente cuffie a cancellazione del rumore e intelligenza artificiale per individuare le singole voci in ambienti rumorosi e affollati.
- Durante la fase di "iscrizione", l'utente guarda l'altoparlante target per alcuni secondi, consentendo ai microfoni binaurali delle cuffie di catturare un campione audio contenente le caratteristiche vocali dell'altoparlante, anche in presenza di altri altoparlanti e rumori.
- Il segnale binaurale catturato viene elaborato da una rete neurale che apprende le caratteristiche del parlante target, separando la sua voce da quella dei parlanti interferenti grazie alle informazioni direzionali.
- Le caratteristiche apprese del parlante target, rappresentate come un vettore di incorporamento, vengono poi inserite in un'altra rete neurale progettata per estrarre il parlato target da una cacofonia di parlanti.
- Una volta apprese le caratteristiche del parlante target durante la fase di registrazione, l'utente può guardare in qualsiasi direzione, muovere la testa o camminare mentre continua a sentire il parlante target.
- Il sistema TSH elabora continuamente l'audio in entrata, utilizzando l'embedding del diffusore appreso per isolare e amplificare la voce del diffusore target, sopprimendo le altre voci e il rumore di fondo.
Il prototipo attuale è in grado di iscrivere efficacemente solo un altoparlante mirato la cui voce è più forte in una particolare direzione, ma il team sta lavorando su migliorare il sistema per gestire scenari più complessi con fonti audio diverse e variegate.
Samuele Cornell, ricercatore del Language Technologies Institute della Carnegie Mellon University, elogia la ricerca per le sue chiare applicazioni nel mondo reale, affermando: "Penso che sia un passo nella giusta direzione. È una boccata d'aria fresca".
Sebbene il sistema TSH sia attualmente una prova di concetto, i ricercatori sono in trattative per incorporare la tecnologia negli auricolari a cancellazione di rumore delle marche più diffuse e renderla disponibile per gli apparecchi acustici.
Insieme al miglioramento dell'analisi dell'audio e del parlato, che ha fatto un balzo in avanti con GPT-4oI disabili visivi e uditivi potranno così entrare meglio in contatto con il mondo sensoriale che li circonda.