Наушники с искусственным интеллектом позволяют пользователям сосредоточиться на одном голосе в шумной обстановке

Май 28, 2024

  • Исследователи разработали наушники, которые выделяют отдельные голоса из толпы
  • Команда Вашингтонского университета называет это целевым речевым слухом (TSH).
  • Это особенно перспективно для тех, у кого проблемы со слухом
Слух Ай

Исследователи из Вашингтонского университета разработали систему искусственного интеллекта, которая позволяет наушникам с функцией шумоподавления изолировать и усиливать один голос в шумной обстановке. 

Технология, получившая название Target Speech Hearing (TSH), позволяет пользователям выбирать конкретного человека для прослушивания, просто посмотрев на него в течение нескольких секунд.

Система TSH решает общую проблему, с которой сталкиваются шумоподавляющие наушники: хотя они эффективно снижают окружающий шум, они делают это беспорядочно, что мешает пользователям услышать конкретные звуки, на которых они хотели бы сосредоточиться. 

Шьям Голлакота, профессор Вашингтонского университета и ведущий исследователь проекта, объясняет"Слушать конкретных людей - это фундаментальный аспект нашего общения и взаимодействия с другими людьми. Но в шумной обстановке сосредоточиться на конкретных людях может быть очень сложно, даже если у вас нет проблем со слухом".

Как это работает

Сайт исследование Интеллектуальное сочетание наушников с шумоподавлением и искусственного интеллекта позволяет вычленять отдельные голоса в шумных и многолюдных местах. 

  1. Во время фазы "регистрации" пользователь смотрит на целевого диктора в течение нескольких секунд, что позволяет бинауральным микрофонам на наушниках захватить образец звука, содержащий голосовые характеристики диктора, даже в присутствии других дикторов и шумов.
  2. Захваченный бинауральный сигнал обрабатывается нейронной сетью, которая узнает характеристики целевого диктора, отделяя его голос от мешающих дикторов с помощью информации о направленности.
  3. Изученные характеристики целевого диктора, представленные в виде вектора встраивания, затем вводятся в другую нейронную сеть, предназначенную для извлечения целевой речи из какофонии дикторов.
  4. После того как характеристики целевого диктора были изучены на этапе регистрации, пользователь может смотреть в любом направлении, двигать головой или ходить вокруг, продолжая слышать целевого диктора.
  5. Система TSH непрерывно обрабатывает поступающее аудио, используя изученные вкрапления диктора для выделения и усиления голоса целевого диктора при подавлении других голосов и фонового шума.

Нынешний прототип может эффективно зачислять только тех дикторов, чей голос звучит громче всего в определенном направлении, но команда работает над тем, чтобы совершенствование системы для работы с более сложными сценариями с разнообразными источниками звука.

Самуэле Корнелл, научный сотрудник Института языковых технологий Университета Карнеги-Меллона, высоко оценивает исследование за его очевидное применение в реальном мире: "Я думаю, это шаг в правильном направлении. Это глоток свежего воздуха".

Пока система TSH является доказательством концепции, исследователи ведут переговоры о внедрении технологии в наушники с шумоподавлением популярных брендов, а также о выпуске слуховых аппаратов. 

Вместе с улучшенным анализом звука и речи, который значительно продвинулся вперед с ГПТ-4оЛюди с нарушениями зрения и слуха смогут лучше ориентироваться в окружающем их сенсорном мире.

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Сэм Джинс

Сэм - писатель в области науки и техники, работавший в различных AI-стартапах. Когда он не пишет, его можно найти за чтением медицинских журналов или копанием в коробках с виниловыми пластинками.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения