Компания OpenAI сообщила, что провела небольшое тестирование своего нового продукта для клонирования голоса Voice Engine с несколькими избранными партнерами. Результаты показали перспективность применения технологии, однако соображения безопасности могут помешать ее выпуску.
OpenAI утверждает, что Voice Engine может клонировать голос человека на основе одной 15-секундной записи его голоса. После этого инструмент может генерировать "естественную речь, которая очень похожа на оригинального диктора".
После клонирования Voice Engine может превратить вводимый текст в звуковую речь, используя "эмоциональные и реалистичные голоса". Возможности этого инструмента делают возможными захватывающие приложения, но также поднимают серьезные вопросы безопасности.
Перспективные варианты использования
OpenAI начала тестировать Voice Engine в конце прошлого года, чтобы посмотреть, как небольшая группа избранных участников сможет использовать эту технологию.
Вот некоторые примеры использования продукта партнерами по тестированию Voice Engine:
- Адаптивное обучение - Компания Age of Learning использовала Voice Engine для оказания помощи детям в чтении, создания голосового сопровождения для учебных материалов и предоставления персонализированных словесных ответов для взаимодействия с учениками.
- Перевод содержимого - Компания HeyGen использовала Voice Engine для перевода видео, чтобы маркетинг продукции и демонстрационные ролики продаж могли охватить более широкий рынок. В переведенном аудио сохраняется родной акцент человека. Так, при переводе аудиозаписи носителя французского языка на английский вы все равно услышите его французский акцент.
- Предоставление более широких социальных услуг - Компания Dimagi обучает медицинских работников в удаленных районах. Она использует Voice Engine для обучения и интерактивной обратной связи с медицинскими работниками на малораспространенных языках.
- Поддержка невербальных людей - Livox позволяет невербальным людям общаться с помощью альтернативных коммуникационных устройств. Voice Engine позволяет таким людям выбирать голос, который лучше всего соответствует им самим, а не звучит как робот.
- Помощь пациентам в восстановлении голоса - Компания Lifespan провела пилотную программу, предлагая Voice Engine людям с нарушениями речи, вызванными раком или неврологическими заболеваниями.
Voice Engine - не первый инструмент для клонирования голоса ИИ, но образцы в Запись в блоге OpenAI указывают на то, что она представляет собой передовую разработку и даже может быть лучше, чем ElevenLabs.
Вот лишь один пример естественных отклонений и эмоций, которые он может создать.
Компания OpenAI только что запустила Voice Engine,
Он использует текстовый ввод и один 15-секундный аудиосэмпл для создания естественной речи, которая очень похожа на оригинального диктора.
Референсный и сгенерированный звук очень близки и трудно различимы.
Подробности в разделе 🧵 pic.twitter.com/tJRrCO2WZP- Ашутош Шривастава (@ai_for_success) 29 марта 2024 года
Вопросы безопасности
OpenAI заявила, что ее впечатлили сценарии использования, предложенные участниками тестирования, но прежде чем компания примет решение о том, "стоит ли внедрять эту технологию в масштабе и как это сделать", необходимо принять дополнительные меры безопасности.
OpenAI утверждает, что технология, которая может точно воспроизводить чей-то голос, "имеет серьезные риски, которые особенно актуальны в год выборов". Поддельные звонки от Байдена и Поддельное видео с кандидатом в Сенат Кари Лейк являются наглядным примером.
Помимо четких ограничений в общих правилах использования, участники испытания должны были получить "явное и информированное согласие от оригинального диктора", и им не разрешалось создавать продукт, позволяющий людям создавать свои собственные голоса.
OpenAI утверждает, что применила и другие меры безопасности, включая водяной знак на аудио. Она не объяснила, как именно, но заявила, что может осуществлять "проактивный мониторинг" использования Voice Engine.
Некоторые другие крупные игроки в индустрии ИИ также обеспокоены тем, что подобные технологии попадают в дикую природу.
Голосовой ИИ, безусловно, является наиболее опасной модальностью.
Сверхчеловеческий, убедительный голос - это то, к чему у нас минимальная защита.
Выяснение того, что с этим делать, должно стать одним из наших главных приоритетов.
(У нас были модели sota, но мы не стали выпускать их по этой причине). https://t.co/vjY99uCdTl) https://t.co/fKIZrVQCml
- Эмад Акк (@EMostaque) 29 марта 2024 года
Что дальше?
Получат ли остальные возможность поиграть с Voice Engine? Это маловероятно, и, возможно, это хорошо. Потенциал для вредоносного использования огромен.
OpenAI уже рекомендует таким учреждениям, как банки, отказаться от голосовой аутентификации в качестве меры безопасности.
В Voice Engine встроен водяной знак, но OpenAI утверждает, что необходимо еще поработать, чтобы определить, когда аудиовизуальный контент создан искусственным интеллектом.
Даже если OpenAI решит не выпускать Voice Engine, это сделают другие. Времена, когда можно было доверять своим глазам и ушам, ушли в прошлое.