Компания Meta представила Voiceboxсовременная генеративная модель ИИ для речи. Она работает аналогично текстовым генераторам, таким как ChatGPT, но вместо текстовых ответов генерирует аудио.
Voicebox может генерировать звук с нуля или изменять существующий. Это очень гибкий инструмент, который может взять 2-секундный аудиоклип с чьим-то голосом и использовать его для создания речи на другом языке с сохранением интонации голоса.
Это сочетается с генерацией текста в речь. Таким образом, вы можете "вставить" свой голос в ИИ и использовать его для преобразования текста в речь с помощью собственного голоса. Например, если вы находитесь в отпуске и вам нужно общаться на английском, французском, испанском, немецком, польском или португальском языках, просто введите свое сообщение в Voicebox, и он будет говорить за вас.
Для обучения модели было использовано более 50 000 часов записанной речи и транскриптов на 6 языках: английском, французском, испанском, немецком, польском и португальском. Она значительно быстрее и точнее, чем аналогичные аудио-ориентированные ИИ, такие как VALL-E.
Вот 4 основных способа использования Voicebox:
- Контекстный синтез текста в речь: Voicebox может генерировать реалистичный звук из текста. Это может быть использовано для создания многоязычных виртуальных помощников, чтобы люди с нарушениями слуха и голоса могли общаться более естественно.
- Межъязыковая передача стиля: ИИ может переводить текст на 6 различных языков, обеспечивая аутентичное и естественное многоязычное общение.
- Обесценивание и редактирование речи: Voicebox может генерировать речь для редактирования сегментов в аудиозаписях. Например, он может повторно синтезировать части речи, испорченные шумом.
- Разнообразная выборка речи: Voicebox может генерировать репрезентативную речь на 6 языках, что идеально подходит для создания синтетических данных для других речевых и аудио моделей с впечатляющими результатами. Модели распознавания речи, обученные на синтетической речи, сгенерированной Voicebox, работают практически наравне с моделями, обученными на реальной речи, с незначительным снижением коэффициента ошибок на 1%, что является огромным скачком по сравнению со снижением от 45 до 70%, наблюдавшимся в аналогичных моделях.
Meta еще не выпустила Voicebox, ссылаясь на опасения по поводу злоупотреблений. Однако они опубликовали подробную статью об этой модели, доступен здесь.
Пока нет официальной информации о том, когда люди смогут использовать Voicebox, но Meta утверждает, что инструмент поможет создателям редактировать аудиодорожки, улучшит общение со слабовидящими людьми и позволит людям говорить на любом иностранном языке своим голосом.