Исследователи из Вашингтонского университета разработали систему искусственного интеллекта, которая позволяет наушникам с функцией шумоподавления изолировать и усиливать один голос в шумной обстановке.
Технология, получившая название Target Speech Hearing (TSH), позволяет пользователям выбирать конкретного человека для прослушивания, просто посмотрев на него в течение нескольких секунд.
Система TSH решает общую проблему, с которой сталкиваются шумоподавляющие наушники: хотя они эффективно снижают окружающий шум, они делают это беспорядочно, что мешает пользователям услышать конкретные звуки, на которых они хотели бы сосредоточиться.
Шьям Голлакота, профессор Вашингтонского университета и ведущий исследователь проекта, объясняет"Слушать конкретных людей - это фундаментальный аспект нашего общения и взаимодействия с другими людьми. Но в шумной обстановке сосредоточиться на конкретных людях может быть очень сложно, даже если у вас нет проблем со слухом".
Как это работает
Сайт исследование Интеллектуальное сочетание наушников с шумоподавлением и искусственного интеллекта позволяет вычленять отдельные голоса в шумных и многолюдных местах.
- Во время фазы "регистрации" пользователь смотрит на целевого диктора в течение нескольких секунд, что позволяет бинауральным микрофонам на наушниках захватить образец звука, содержащий голосовые характеристики диктора, даже в присутствии других дикторов и шумов.
- Захваченный бинауральный сигнал обрабатывается нейронной сетью, которая узнает характеристики целевого диктора, отделяя его голос от мешающих дикторов с помощью информации о направленности.
- Изученные характеристики целевого диктора, представленные в виде вектора встраивания, затем вводятся в другую нейронную сеть, предназначенную для извлечения целевой речи из какофонии дикторов.
- После того как характеристики целевого диктора были изучены на этапе регистрации, пользователь может смотреть в любом направлении, двигать головой или ходить вокруг, продолжая слышать целевого диктора.
- Система TSH непрерывно обрабатывает поступающее аудио, используя изученные вкрапления диктора для выделения и усиления голоса целевого диктора при подавлении других голосов и фонового шума.
Нынешний прототип может эффективно зачислять только тех дикторов, чей голос звучит громче всего в определенном направлении, но команда работает над тем, чтобы совершенствование системы для работы с более сложными сценариями с разнообразными источниками звука.
Самуэле Корнелл, научный сотрудник Института языковых технологий Университета Карнеги-Меллона, высоко оценивает исследование за его очевидное применение в реальном мире: "Я думаю, это шаг в правильном направлении. Это глоток свежего воздуха".
Пока система TSH является доказательством концепции, исследователи ведут переговоры о внедрении технологии в наушники с шумоподавлением популярных брендов, а также о выпуске слуховых аппаратов.
Вместе с улучшенным анализом звука и речи, который значительно продвинулся вперед с ГПТ-4оЛюди с нарушениями зрения и слуха смогут лучше ориентироваться в окружающем их сенсорном мире.