Компания Meta выпустила новую модель мультимодального многоязычного ИИ-переводчика под названием SeamlessM4T. Этот первый в своем роде переводчик может переводить и транскрибировать речь и текст на 100 языках.
Компания Meta работает над рядом продуктов для распознавания языков и перевода, но в SeamlessM4T она объединила множество входов и выходов в единую модель.
Согласно Объявление о выходе МетыБесшовная поддержкаM4T:
- Распознавание речи для почти 100 языков
- Перевод речи в текст для почти 100 входных и выходных языков
- Перевод речи в речь, поддерживающий около 100 языков ввода и 36 (включая английский) языков вывода.
- Перевод с текста на текст почти на 100 языков
- Перевод текста в речь, поддерживающий около 100 языков ввода и 35 (включая английский) языков вывода.
Перевод речи в речь - это, пожалуй, одна из самых интересных возможностей модели. Возможность записывать речь на своем языке, а затем переводить ее на другой язык - это потрясающе. Представьте, как это будет полезно во время путешествия по чужой стране.
В 2022 году компания Meta выпустила переводчик с текста на текст No Language Left Behind, поддерживающий 200 языков. Эта модель поддерживает 55 африканских языков, многие из которых очень плохо переводились другими инструментами.
В конце прошлого года компания Meta также представила пример нового подхода к переводу с речи на речь для языков с низким уровнем ресурсов. Она использовала свой универсальный речевой переводчик для перевода языка хоккиен, который является разговорным языком без письменности.
В начале этого года компания продолжила уделять особое внимание языкам, которым не уделяется должного внимания, представив модель Massively Multilingual Speech, которая обеспечивает автоматическое распознавание речи на более чем 1100 языках.
SeamlessM4T - это унифицированная модель, которая опирается на возможности этих отдельных моделей и объединяет их в одну легкую модель.
Представляем SeamlessM4T, первую универсальную модель многоязычного мультимодального перевода.
Эта модель может выполнять задачи преобразования речи в текст, речи в речь, перевода текста в текст и распознавания речи для 100 языков в зависимости от задачи.
Подробности ⬇️
- Meta AI (@MetaAI) 22 августа 2023 года
Учебные данные создают проблемы, связанные со смещением и токсичностью
Компания Meta утверждает, что ее модель была обучена на "данных из общедоступных хранилищ веб-данных (десятки миллиардов предложений) и речи (4 миллиона часов)".
Она не уточняет, откуда взяты данные для обучения, но говорит, что они получены из лицензированных данных с открытым исходным кодом, не защищенных авторским правом.
Мета признала, что модель сталкивается с теми же "неотъемлемыми рисками" предвзятости и токсичности, что и другие модели ИИ. Предвзятое отношение к различным культурам неизбежно проявляется в аудиозаписи и передается модели в процессе обучения.
Для устранения предвзятости Meta расширила свой многоязычный набор текстовых данных HolisticBias, добавив в него речь. Это часть усилий по исправлению ситуации, когда модель может "несправедливо отдавать предпочтение тому или иному полу и иногда опираться на гендерные стереотипы".
Еще одна проблема, которую предстоит решить Meta, - это создание ограждений, сдерживающих токсичность результатов. Токсичность относится к тому, что неправильные переводы могут "разжигать ненависть, насилие", ругательства или оскорбления в адрес отдельного человека или группы людей".
Meta использовала свой "многоязычный классификатор токсичности" для проверки на токсичность входных и выходных данных, чтобы SeamlessM4T с меньшей вероятностью оскорбил кого-либо.
Скорее всего, перевод будет не совсем удачным, поскольку команда, разработавшая модель, признает, что она "слишком обобщает формы мужского рода при переводе с нейтральных терминов". Но если хорошенько постараться, можно заставить ее сказать что-нибудь непристойное.
Если вы хотите попробовать, то посмотрите демонстрация здесь. Вы можете записать предложение, выбрать три разных языка и через несколько секунд услышать перевод. Очень впечатляет.
Рассказывая о своих амбициях в отношении SeamlessM4T, компания Meta ссылается на рыбу Бабеля из "Путеводителя автостопщика по Галактике". Пока она не способна переводить в реальном времени, но пользоваться ею, вероятно, гораздо удобнее, чем засовывать рыбу в ухо.