Meta выпускает первый в своем роде мультимодальный переводчик с искусственным интеллектом

23 августа 2023 года

Переводчик ИИ на несколько языков

Компания Meta выпустила новую модель мультимодального многоязычного ИИ-переводчика под названием SeamlessM4T. Этот первый в своем роде переводчик может переводить и транскрибировать речь и текст на 100 языках.

Компания Meta работает над рядом продуктов для распознавания языков и перевода, но в SeamlessM4T она объединила множество входов и выходов в единую модель. 

Согласно Объявление о выходе МетыБесшовная поддержкаM4T:

  • Распознавание речи для почти 100 языков
  • Перевод речи в текст для почти 100 входных и выходных языков
  • Перевод речи в речь, поддерживающий около 100 языков ввода и 36 (включая английский) языков вывода.
  • Перевод с текста на текст почти на 100 языков
  • Перевод текста в речь, поддерживающий около 100 языков ввода и 35 (включая английский) языков вывода.

Перевод речи в речь - это, пожалуй, одна из самых интересных возможностей модели. Возможность записывать речь на своем языке, а затем переводить ее на другой язык - это потрясающе. Представьте, как это будет полезно во время путешествия по чужой стране.

В 2022 году компания Meta выпустила переводчик с текста на текст No Language Left Behind, поддерживающий 200 языков. Эта модель поддерживает 55 африканских языков, многие из которых очень плохо переводились другими инструментами.

В конце прошлого года компания Meta также представила пример нового подхода к переводу с речи на речь для языков с низким уровнем ресурсов. Она использовала свой универсальный речевой переводчик для перевода языка хоккиен, который является разговорным языком без письменности.

В начале этого года компания продолжила уделять особое внимание языкам, которым не уделяется должного внимания, представив модель Massively Multilingual Speech, которая обеспечивает автоматическое распознавание речи на более чем 1100 языках.

SeamlessM4T - это унифицированная модель, которая опирается на возможности этих отдельных моделей и объединяет их в одну легкую модель.

 

Учебные данные создают проблемы, связанные со смещением и токсичностью

Компания Meta утверждает, что ее модель была обучена на "данных из общедоступных хранилищ веб-данных (десятки миллиардов предложений) и речи (4 миллиона часов)".

Она не уточняет, откуда взяты данные для обучения, но говорит, что они получены из лицензированных данных с открытым исходным кодом, не защищенных авторским правом.

Мета признала, что модель сталкивается с теми же "неотъемлемыми рисками" предвзятости и токсичности, что и другие модели ИИ. Предвзятое отношение к различным культурам неизбежно проявляется в аудиозаписи и передается модели в процессе обучения. 

Для устранения предвзятости Meta расширила свой многоязычный набор текстовых данных HolisticBias, добавив в него речь. Это часть усилий по исправлению ситуации, когда модель может "несправедливо отдавать предпочтение тому или иному полу и иногда опираться на гендерные стереотипы".

Еще одна проблема, которую предстоит решить Meta, - это создание ограждений, сдерживающих токсичность результатов. Токсичность относится к тому, что неправильные переводы могут "разжигать ненависть, насилие", ругательства или оскорбления в адрес отдельного человека или группы людей".

Meta использовала свой "многоязычный классификатор токсичности" для проверки на токсичность входных и выходных данных, чтобы SeamlessM4T с меньшей вероятностью оскорбил кого-либо.

Скорее всего, перевод будет не совсем удачным, поскольку команда, разработавшая модель, признает, что она "слишком обобщает формы мужского рода при переводе с нейтральных терминов". Но если хорошенько постараться, можно заставить ее сказать что-нибудь непристойное.

Если вы хотите попробовать, то посмотрите демонстрация здесь. Вы можете записать предложение, выбрать три разных языка и через несколько секунд услышать перевод. Очень впечатляет.

Рассказывая о своих амбициях в отношении SeamlessM4T, компания Meta ссылается на рыбу Бабеля из "Путеводителя автостопщика по Галактике". Пока она не способна переводить в реальном времени, но пользоваться ею, вероятно, гораздо удобнее, чем засовывать рыбу в ухо.

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Юджин ван дер Ватт

Юджин - выходец из электронной инженерии и обожает все, что связано с техникой. Когда он отдыхает от чтения новостей об искусственном интеллекте, вы можете найти его за столом для игры в снукер.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения