AI-hörlurar låter användare fokusera på en enda röst i bullriga miljöer

28 maj 2024

  • Forskare har utvecklat hörlurar som kan urskilja enskilda röster i folkmassor
  • Teamet vid University of Washington kallar det Target Speech Hearing (TSH)
  • Det är särskilt lovande för personer med hörselproblem
Ai hörsel

Forskare vid University of Washington har utvecklat ett AI-system som gör det möjligt för brusreducerande hörlurar att isolera och förstärka en enda röst i en trång och bullrig miljö. 

Tekniken, som kallas Target Speech Hearing (TSH), gör det möjligt för användare att välja en specifik person att lyssna på genom att helt enkelt titta på dem i några sekunder.

TSH-systemet tar itu med en vanlig utmaning för brusreducerande hörlurar: även om de effektivt reducerar omgivande ljud gör de det på ett urskillningslöst sätt, vilket gör det svårt för användarna att höra specifika ljud som de kanske vill fokusera på. 

Som Shyam Gollakota, professor vid University of Washington och projektets ledande forskare, förklarar"Att lyssna på specifika personer är en så grundläggande aspekt av hur vi kommunicerar och hur vi interagerar med andra människor. Men det kan bli riktigt utmanande, även om du inte har några problem med hörselnedsättning, att fokusera på specifika personer när det gäller bullriga situationer."

Så här fungerar det

Den studie kombinerar på ett smart sätt brusreducerande hörlurar och AI för att hitta enskilda röster i högljudda och trånga miljöer. 

  1. Under "enrollment"-fasen tittar användaren på målhögtalaren i några sekunder, vilket gör att de binaurala mikrofonerna i hörlurarna kan fånga upp ett ljudprov som innehåller högtalarens röstkarakteristik, även i närvaro av andra högtalare och ljud.
  2. Den binaurala signal som fångas upp bearbetas av ett neuralt nätverk som lär sig måltalarens egenskaper och separerar dennes röst från störande talare med hjälp av riktningsinformation.
  3. De inlärda egenskaperna hos måltalaren, representerade som en inbäddningsvektor, matas sedan in i ett annat neuralt nätverk som är utformat för att extrahera måltalet från en kakofoni av talare.
  4. När målhögtalarens egenskaper har lärt sig under registreringsfasen kan användaren titta åt vilket håll som helst, röra på huvudet eller gå omkring samtidigt som målhögtalaren hörs.
  5. TSH-systemet bearbetar kontinuerligt det inkommande ljudet och använder den inlärda högtalarinbäddningen för att isolera och förstärka måltalarens röst samtidigt som andra röster och bakgrundsljud undertrycks.

Den nuvarande prototypen kan bara effektivt registrera en riktad talare vars röst är den högsta i en viss riktning, men teamet arbetar på att förbättra systemet för att hantera mer komplexa scenarier med olika, varierande ljudkällor.

Samuele Cornell, forskare vid Carnegie Mellon University's Language Technologies Institute, berömmer forskningen för dess tydliga tillämpningar i den verkliga världen och säger: "Jag tycker att det är ett steg i rätt riktning. Det är en frisk fläkt."

TSH-systemet är för närvarande ett "proof of concept", men forskarna för samtal om att integrera tekniken i populära märken av brusreducerande öronsnäckor och göra den tillgänglig för hörapparater. 

Tillsammans med förbättrad ljud- och talanalys, som tog ett stort kliv framåt med GPT-4okommer personer med både syn- och hörselnedsättningar att kunna få bättre kontakt med den sensoriska världen omkring dem.

Bli en del av framtiden


PRENUMERERA IDAG

Tydlig, kortfattad och heltäckande. Få grepp om AI-utvecklingen med DagligaAI

Sam Jeans

Sam är en vetenskaps- och teknikskribent som har arbetat i olika AI-startups. När han inte skriver läser han medicinska tidskrifter eller gräver igenom lådor med vinylskivor.

×

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI

Registrera dig för vårt veckovisa nyhetsbrev och få exklusiv tillgång till DailyAI:s senaste e-bok: "Mastering AI Tools: Din 2024-guide till förbättrad produktivitet".

*Genom att prenumerera på vårt nyhetsbrev accepterar du vår Integritetspolicy och våra Villkor och anvisningar