Meta представила Voicebox, передовой аудио-ориентированный ИИ

Компания Meta представила Voiceboxсовременная генеративная модель ИИ для речи. Она работает аналогично текстовым генераторам, таким как ChatGPT, но вместо текстовых ответов генерирует аудио.

Voicebox может генерировать звук с нуля или изменять существующий. Это очень гибкий инструмент, который может взять 2-секундный аудиоклип с чьим-то голосом и использовать его для создания речи на другом языке с сохранением интонации голоса.

Это сочетается с генерацией текста в речь. Таким образом, вы можете "вставить" свой голос в ИИ и использовать его для преобразования текста в речь с помощью собственного голоса. Например, если вы находитесь в отпуске и вам нужно общаться на английском, французском, испанском, немецком, польском или португальском языках, просто введите свое сообщение в Voicebox, и он будет говорить за вас.

Для обучения модели было использовано более 50 000 часов записанной речи и транскриптов на 6 языках: английском, французском, испанском, немецком, польском и португальском. Она значительно быстрее и точнее, чем аналогичные аудио-ориентированные ИИ, такие как VALL-E.

Вот 4 основных способа использования Voicebox:

Контекстный синтез текста в речь: Voicebox может генерировать реалистичный звук из текста. Это может быть использовано для создания многоязычных виртуальных помощников, чтобы люди с нарушениями слуха и голоса могли общаться более естественно.
Межъязыковая передача стиля: ИИ может переводить текст на 6 различных языков, обеспечивая аутентичное и естественное многоязычное общение.
Обесценивание и редактирование речи: Voicebox может генерировать речь для редактирования сегментов в аудиозаписях. Например, он может повторно синтезировать части речи, испорченные шумом.
Разнообразная выборка речи: Voicebox может генерировать репрезентативную речь на 6 языках, что идеально подходит для создания синтетических данных для других речевых и аудио моделей с впечатляющими результатами. Модели распознавания речи, обученные на синтетической речи, сгенерированной Voicebox, работают практически наравне с моделями, обученными на реальной речи, с незначительным снижением коэффициента ошибок на 1%, что является огромным скачком по сравнению со снижением от 45 до 70%, наблюдавшимся в аналогичных моделях.

Meta еще не выпустила Voicebox, ссылаясь на опасения по поводу злоупотреблений. Однако они опубликовали подробную статью об этой модели, доступен здесь.

Пока нет официальной информации о том, когда люди смогут использовать Voicebox, но Meta утверждает, что инструмент поможет создателям редактировать аудиодорожки, улучшит общение со слабовидящими людьми и позволит людям говорить на любом иностранном языке своим голосом.

Meta представляет Voicebox, передовой аудио-ориентированный искусственный интеллект

Присоединяйтесь к будущему

Сэм Джинс

СВЯЗАННЫЕ СТАТЬИ

AI May Soon Help You Understand What Your Pet Is Trying to Say

Netflix Adds ChatGPT-Powered AI to Stop You From Scrolling Forever

New Skechers AI Store Assistant Rates Outfit and Suggests What to Buy

Ferrari Just Launched an AI App That Lets Fans Experience F1 Like Never Before