Forscher der University of Washington haben ein KI-System entwickelt, mit dem Kopfhörer mit Geräuschunterdrückung eine einzelne Stimme in einer überfüllten, lauten Umgebung isolieren und verstärken können.
Die Technologie mit der Bezeichnung Target Speech Hearing (TSH) ermöglicht es den Nutzern, eine bestimmte Person auszuwählen, der sie zuhören möchten, indem sie sie einfach ein paar Sekunden lang ansehen.
Das TSH-System löst ein häufiges Problem, mit dem Kopfhörer mit Geräuschunterdrückung zu kämpfen haben: Sie reduzieren zwar effektiv die Umgebungsgeräusche, aber sie tun dies wahllos, so dass es für den Benutzer schwierig ist, bestimmte Geräusche zu hören, auf die er sich konzentrieren möchte.
Shyam Gollakota, Professor an der University of Washington und leitender Forscher des Projekts, erklärtDas Hören auf bestimmte Personen ist ein grundlegender Aspekt unserer Kommunikation und unserer Interaktion mit anderen Menschen. Aber selbst wenn man keinen Hörverlust hat, kann es in lauten Situationen eine echte Herausforderung sein, sich auf bestimmte Personen zu konzentrieren."
Wie es funktioniert
Die Studie kombiniert auf intelligente Weise Kopfhörer mit Geräuschunterdrückung und KI, um einzelne Stimmen in lauten und überfüllten Umgebungen zu erkennen.
- Während der "Registrierungsphase" schaut der Benutzer den Zielsprecher einige Sekunden lang an, so dass die binauralen Mikrofone des Kopfhörers ein Audio-Sample mit den Stimmmerkmalen des Sprechers aufnehmen können, selbst wenn andere Sprecher und Geräusche vorhanden sind.
- Das erfasste binaurale Signal wird von einem neuronalen Netzwerk verarbeitet, das die Eigenschaften des Zielsprechers erlernt und seine Stimme anhand von Richtungsinformationen von anderen Sprechern trennt.
- Die erlernten Merkmale des Zielsprechers, die als Einbettungsvektor dargestellt werden, werden dann in ein anderes neuronales Netz eingegeben, das die Zielsprache aus einer Kakophonie von Sprechern extrahieren soll.
- Sobald die Eigenschaften des Zielsprechers während der Registrierungsphase gelernt wurden, kann der Benutzer in jede beliebige Richtung schauen, seinen Kopf bewegen oder umhergehen, während er den Zielsprecher weiterhin hört.
- Das TSH-System verarbeitet kontinuierlich die eingehenden Audiodaten und nutzt die erlernte Sprechereinbettung, um die Stimme des Zielsprechers zu isolieren und zu verstärken, während andere Stimmen und Hintergrundgeräusche unterdrückt werden.
Der derzeitige Prototyp kann nur denjenigen gezielt anmelden, dessen Stimme in einer bestimmten Richtung am lautesten ist, aber das Team arbeitet an Verbesserung des Systems zur Bewältigung komplexerer Szenarien mit verschiedenen, unterschiedlichen Audioquellen.
Samuele Cornell, Forscher am Institut für Sprachtechnologien der Carnegie Mellon University, lobt die Forschung für ihre klaren praktischen Anwendungen: "Ich denke, es ist ein Schritt in die richtige Richtung. Es ist ein Hauch von frischem Wind.
Das TSH-System ist derzeit ein Proof-of-Concept, aber die Forscher sind in Gesprächen, um die Technologie in gängige Ohrhörer mit Geräuschunterdrückung einzubauen und sie für Hörgeräte verfügbar zu machen.
Zusammen mit der verbesserten Audio- und Sprachanalyse, die einen Sprung nach vorne gemacht hat mit GPT-4okönnen Menschen mit Seh- und Hörbehinderungen besser mit der sensorischen Welt um sie herum in Kontakt treten.