Forskere ved University of Washington har udviklet et AI-system, der gør det muligt for støjreducerende hovedtelefoner at isolere og forstærke en enkelt stemme i et overfyldt, støjende miljø.
Teknologien, der kaldes Target Speech Hearing (TSH), gør det muligt for brugerne at vælge en bestemt person at lytte til ved blot at se på dem i nogle få sekunder.
TSH-systemet løser en almindelig udfordring for støjreducerende hovedtelefoner: Selv om de effektivt reducerer omgivende støj, gør de det vilkårligt, hvilket gør det vanskeligt for brugerne at høre specifikke lyde, som de måske gerne vil fokusere på.
Som Shyam Gollakota, professor ved University of Washington og projektets ledende forsker, forklarer"At lytte til bestemte mennesker er et så grundlæggende aspekt af, hvordan vi kommunikerer, og hvordan vi interagerer med andre mennesker. Men det kan være virkelig udfordrende at fokusere på bestemte personer i støjende situationer, selv hvis man ikke har problemer med høretab."
Sådan fungerer det
Den undersøgelse kombinerer smart støjreducerende hovedtelefoner og AI for at finde frem til individuelle stemmer i højlydte og overfyldte omgivelser.
- I "tilmeldingsfasen" ser brugeren på målhøjttaleren i et par sekunder, så de binaurale mikrofoner på hovedtelefonerne kan optage en lydprøve, der indeholder højttalerens stemmeegenskaber, selv i nærvær af andre højttalere og lyde.
- Det opfangede binaurale signal behandles af et neuralt netværk, der lærer målhøjttalerens karakteristika og adskiller deres stemme fra forstyrrende højttalere ved hjælp af retningsinformation.
- De indlærte karakteristika for måltaleren, repræsenteret som en indlejringsvektor, indlæses derefter i et andet neuralt netværk, der er designet til at udtrække måltalen fra en kakofoni af talere.
- Når målhøjttalerens karakteristika er blevet lært i indskrivningsfasen, kan brugeren se i alle retninger, bevæge hovedet eller gå rundt, mens han stadig hører målhøjttaleren.
- TSH-systemet behandler løbende den indkommende lyd og bruger den indlærte højttalerindlejring til at isolere og forstærke målhøjttalerens stemme, mens andre stemmer og baggrundsstøj undertrykkes.
Den nuværende prototype kan kun effektivt tilmelde en målrettet højttaler, hvis stemme er højest i en bestemt retning, men holdet arbejder på forbedre systemet til at håndtere mere komplekse scenarier med forskellige, varierede lydkilder.
Samuele Cornell, forsker ved Carnegie Mellon University's Language Technologies Institute, roser forskningen for dens klare anvendelser i den virkelige verden og siger: "Jeg synes, det er et skridt i den rigtige retning. Det er et frisk pust."
TSH-systemet er i øjeblikket et proof of concept, men forskerne er i forhandlinger om at integrere teknologien i populære mærker af støjreducerende ørepropper og gøre den tilgængelig for høreapparater.
Sammen med forbedret lyd- og taleanalyse, som tog et stort spring fremad med GPT-4oMed den nye teknologi vil personer med både syns- og hørenedsættelse bedre kunne få kontakt med den sanselige verden omkring dem.