ChatGPT доступен на нескольких языках, но японские исследователи утверждают, что популярный чатбот с искусственным интеллектом плохо разбирается в тонкостях японского языка и культуры.
Ряд крупных технологических компаний, таких как NEC, Fujitsu и SoftBank, создают LLM, обученные исключительно на японских наборах данных, чтобы решить эту проблему.
Кейсуке Сакагучи, исследователь в области обработки естественного языка из Университета Тохоку (Япония), пояснил: "Существующие публичные LLM, такие как GPT, отлично справляются с английским языком, но часто не справляются с японским из-за различий в системе алфавита, ограниченности данных и других факторов".
Почему ChatGPT так трудно отвечать на японском языке?
Потерянный перевод
Основная причина, по которой ChatGPT не справляется с японским языком, заключается в том, что большая часть набора данных, на котором он обучался, состояла из англоязычных материалов. А английский язык гораздо менее сложен, чем японский.
Английские слова состоят из комбинаций 26 букв английского алфавита. В японском языке используется 48 основных иероглифов, а также 2 136 регулярно используемых кандзи или китайских иероглифов. И большинство из этих кандзи имеют несколько вариантов произношения.
Кроме того, существует еще 50 000 кандзи, которые технически являются частью японского языка, но используются крайне редко.
Когда японец использует ChatGPT, его запрос переводится на английский, ChatGPT генерирует ответ на английском, а затем переводит его на японский. Поэтому неудивительно, что, когда японец читает ответ ChatGPT, он звучит немного странно.
Сакагути объяснил, что в процессе перевода ChatGPT "иногда генерирует крайне редкие символы, которые большинство людей никогда не видели, и в результате получаются странные неизвестные слова".
ChatGPT Предвзятость и японская культура
Поскольку ChatGPT обучался в основном на англоязычных данных, в нем неявно присутствует западная культура. смещение в том, как он отвечает. Культура формирует то, как мы говорим, и вещи, которые считаются вежливыми или приемлемыми в английском языке, могут быть неуместны в японской культуре.
Если вы используете ChatGPT для написания заявления о приеме на работу или инвестиционного предложения, то для японца результат будет звучать довольно ужасно, потому что в нем будет пропущено множество стандартных выражений вежливости.
Уже есть несколько небольших японских LLM, но им далеко до производительности даже GPT-3.5, не говоря уже о GPT-4.
Группа RIKEN, Университет Тохоку, Fujitsu и Токийский технологический институт работают над тем, чтобы изменить эту ситуацию. В рамках их проекта японский суперкомпьютер Fugaku используется для обучения LLM почти исключительно на данных японского языка.
При параметрах 30B он все еще намного меньше таких моделей, как GPT-3.5, но он будет с открытым исходным кодом и будет гораздо лучше соответствовать языку и культуре Японии.
Япония значительно отстает от таких стран, как США и Китай, в развитии ИИ. Для того чтобы реализовать свои амбиции в области ИИ, Японии необходимо преодолеть ряд отраслевых проблем.
По данным Министерства экономики, торговли и промышленности Японии, к 2030 году в стране будет наблюдаться дефицит 789 000 инженеров-программистов. Кроме того, нехватка передовых вычислительных платформ означает, что отечественные модели ИИ будут в значительной степени зависеть от принадлежащего государству суперкомпьютера Fugaku.
Ранее в этом году Сэм Альтман заявил, что OpenAI планирует открыть офис в Японии, и сказал японскому премьер-министру Кисиде, что OpenAI надеется "построить что-то великое для японцев, сделать модели лучше для японского языка и японской культуры".
Япония, где проживает более 120 миллионов человек, жаждущих технологий, представляет собой привлекательный, хотя и сложный рынок для разработчиков ИИ.