Forskere ved University of Washington har utviklet et AI-system som gjør det mulig for støydempende hodetelefoner å isolere og forsterke en enkelt stemme i et støyende miljø.
Teknologien, som kalles Target Speech Hearing (TSH), gjør det mulig for brukerne å velge en bestemt person å lytte til ved ganske enkelt å se på vedkommende i noen sekunder.
TSH-systemet løser en vanlig utfordring med støyreduserende hodetelefoner: Selv om de effektivt reduserer støy fra omgivelsene, gjør de det ukritisk, noe som gjør det vanskelig for brukerne å høre spesifikke lyder som de kanskje ønsker å fokusere på.
Som Shyam Gollakota, professor ved University of Washington og prosjektets ledende forsker, forklarer"Å lytte til bestemte personer er en så grunnleggende del av hvordan vi kommuniserer og samhandler med andre mennesker. Men det kan være veldig utfordrende, selv om du ikke har problemer med hørselstap, å fokusere på bestemte personer i støyende situasjoner."
Slik fungerer det
Den studie kombinerer på en smart måte støyreduserende hodetelefoner og kunstig intelligens for å finne frem til individuelle stemmer i omgivelser med mye støy og mange mennesker.
- Under "registreringsfasen" ser brukeren på målhøyttaleren i noen sekunder, slik at de binaurale mikrofonene på hodetelefonene kan ta opp et lydopptak som inneholder høyttalerens stemme, selv i nærvær av andre høyttalere og støy.
- Det binaurale signalet behandles av et nevralt nettverk som lærer seg karakteristikkene til målhøyttaleren, og skiller stemmen fra forstyrrende høyttalere ved hjelp av retningsinformasjon.
- De innlærte egenskapene til målhøyttaleren, representert som en innbyggingsvektor, blir deretter lagt inn i et annet nevralt nettverk som er utformet for å trekke ut måltalen fra en kakofoni av høyttalere.
- Når målhøyttalerens egenskaper er lært i registreringsfasen, kan brukeren se i hvilken som helst retning, bevege hodet eller gå rundt mens han eller hun fortsatt hører målhøyttaleren.
- TSH-systemet behandler kontinuerlig den innkommende lyden og bruker den innlærte høyttalerinnbyggingen til å isolere og forsterke målhøyttalerens stemme, samtidig som andre stemmer og bakgrunnsstøy undertrykkes.
Den nåværende prototypen kan bare effektivt registrere en målrettet høyttaler hvis stemme er høyest i en bestemt retning, men teamet jobber med å forbedre systemet slik at det kan håndtere mer komplekse scenarier med ulike, varierte lydkilder.
Samuele Cornell, forsker ved Carnegie Mellon University's Language Technologies Institute, roser forskningen for dens klare anvendelser i den virkelige verden, og sier: "Jeg synes det er et skritt i riktig retning. Det er et friskt pust."
TSH-systemet er foreløpig et "proof of concept", men forskerne er i samtaler om å integrere teknologien i populære merker av støyreduserende ørepropper og gjøre den tilgjengelig for høreapparater.
Sammen med forbedret lyd- og taleanalyse, som gjorde et sprang fremover med GPT-4ovil de med både syns- og hørselsnedsettelser kunne få bedre kontakt med sanseverdenen rundt seg.