Meta представляет Voicebox, передовой аудио-ориентированный искусственный интеллект

17 июня 2023 года

ИИ Мета

Компания Meta представила Voiceboxсовременная генеративная модель ИИ для речи. Она работает аналогично текстовым генераторам, таким как ChatGPT, но вместо текстовых ответов генерирует аудио. 

Voicebox может генерировать звук с нуля или изменять существующий. Это очень гибкий инструмент, который может взять 2-секундный аудиоклип с чьим-то голосом и использовать его для создания речи на другом языке с сохранением интонации голоса.

Это сочетается с генерацией текста в речь. Таким образом, вы можете "вставить" свой голос в ИИ и использовать его для преобразования текста в речь с помощью собственного голоса. Например, если вы находитесь в отпуске и вам нужно общаться на английском, французском, испанском, немецком, польском или португальском языках, просто введите свое сообщение в Voicebox, и он будет говорить за вас.

Для обучения модели было использовано более 50 000 часов записанной речи и транскриптов на 6 языках: английском, французском, испанском, немецком, польском и португальском. Она значительно быстрее и точнее, чем аналогичные аудио-ориентированные ИИ, такие как VALL-E.  

Вот 4 основных способа использования Voicebox:

  1. Контекстный синтез текста в речь: Voicebox может генерировать реалистичный звук из текста. Это может быть использовано для создания многоязычных виртуальных помощников, чтобы люди с нарушениями слуха и голоса могли общаться более естественно. 
  2. Межъязыковая передача стиля: ИИ может переводить текст на 6 различных языков, обеспечивая аутентичное и естественное многоязычное общение.
  3. Обесценивание и редактирование речи: Voicebox может генерировать речь для редактирования сегментов в аудиозаписях. Например, он может повторно синтезировать части речи, испорченные шумом. 
  4. Разнообразная выборка речи: Voicebox может генерировать репрезентативную речь на 6 языках, что идеально подходит для создания синтетических данных для других речевых и аудио моделей с впечатляющими результатами. Модели распознавания речи, обученные на синтетической речи, сгенерированной Voicebox, работают практически наравне с моделями, обученными на реальной речи, с незначительным снижением коэффициента ошибок на 1%, что является огромным скачком по сравнению со снижением от 45 до 70%, наблюдавшимся в аналогичных моделях. 

Meta еще не выпустила Voicebox, ссылаясь на опасения по поводу злоупотреблений. Однако они опубликовали подробную статью об этой модели, доступен здесь

Пока нет официальной информации о том, когда люди смогут использовать Voicebox, но Meta утверждает, что инструмент поможет создателям редактировать аудиодорожки, улучшит общение со слабовидящими людьми и позволит людям говорить на любом иностранном языке своим голосом.

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Сэм Джинс

Сэм - писатель в области науки и техники, работавший в различных AI-стартапах. Когда он не пишет, его можно найти за чтением медицинских журналов или копанием в коробках с виниловыми пластинками.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения