Pourquoi le Japon construit-il sa propre version du ChatGPT ?

20 septembre 2023

ChatGPT est disponible dans un certain nombre de langues, mais des chercheurs japonais affirment que le populaire chatbot IA ne comprend pas bien les subtilités de la langue et de la culture japonaises.

Un certain nombre de grandes entreprises technologiques telles que NEC, Fujitsu et SoftBank créent des LLM formés uniquement sur des ensembles de données japonaises afin de relever ce défi.

Keisuke Sakaguchi, chercheur en traitement du langage naturel à l'université de Tohoku au Japon, a expliqué que "les LLM publics actuels, tels que GPT, excellent en anglais, mais sont souvent insuffisants en japonais en raison de différences dans le système alphabétique, de données limitées et d'autres facteurs".

Pourquoi ChatGPT a-t-il tant de mal à répondre en japonais ?

Perte de traduction

La principale raison pour laquelle ChatGPT a du mal avec le japonais est que la majorité de l'ensemble de données sur lequel il a été entraîné était constituée de documents en anglais. Or, la langue anglaise est beaucoup moins compliquée que la langue japonaise.

Les mots anglais sont constitués de combinaisons des 26 lettres de l'alphabet anglais. La langue japonaise utilise 48 caractères de base, plus 2 136 kanji ou caractères chinois régulièrement utilisés. Et la plupart de ces kanji ont plusieurs prononciations.

Il existe également 50 000 kanji supplémentaires qui font techniquement partie de la langue japonaise, mais qui sont très rarement utilisés.

Lorsqu'un Japonais utilise ChatGPT, son message est traduit en anglais, ChatGPT génère une sortie en anglais et la traduit ensuite en japonais. Il n'est donc pas surprenant que lorsqu'un Japonais lit une réponse de ChatGPT, celle-ci semble quelque peu erronée.

Sakaguchi a expliqué qu'au cours de ce processus de traduction, ChatGPT "génère parfois des caractères extrêmement rares que la plupart des gens n'ont jamais vus auparavant, ce qui donne lieu à des mots inconnus bizarres".

ChatGPT biais et culture japonaise

Comme ChatGPT a été formé principalement sur des données anglaises, il existe une culture occidentale implicite. biais dans sa façon de répondre. La culture façonne notre façon de parler, et des choses considérées comme polies ou acceptables en anglais peuvent ne pas l'être dans la culture japonaise.

Si vous utilisez ChatGPT pour rédiger une demande d'emploi ou un argumentaire d'investissement, le résultat sera très mal perçu par un Japonais, car il manquera de nombreuses expressions de politesse.

Il existe déjà des LLM japonais plus petits, mais ils sont loin d'atteindre les performances de GPT-3.5, sans parler de GPT-4.

Le groupe RIKEN, l'université de Tohoku, Fujitsu et l'Institut de technologie de Tokyo s'efforcent de changer cela. Leur projet consiste à utiliser le superordinateur japonais Fugaku pour former un LLM presque exclusivement à partir de données sur la langue japonaise.

Avec 30 milliards de paramètres, il est encore beaucoup plus petit que des modèles comme le GPT-3.5, mais il sera open source et beaucoup mieux adapté à la langue et à la culture du Japon.

Le Japon accuse un certain retard par rapport à des pays comme les États-Unis et la Chine en matière de développement de l'IA. Pour réaliser ses ambitions en matière d'IA, le Japon devra relever un certain nombre de défis industriels.

Selon le ministère japonais de l'économie, du commerce et de l'industrie, le pays souffrira d'un déficit de 789 000 ingénieurs en informatique d'ici à 2030. En outre, le manque de plateformes informatiques avancées signifie que les modèles d'IA développés au Japon dépendront fortement du superordinateur Fugaku, propriété de l'État.

Au début de l'année, Sam Altman a déclaré qu'OpenAI prévoyait d'ouvrir un bureau au Japon et a déclaré au Premier ministre japonais, M. Kishida, qu'OpenAI espérait "construire quelque chose de grand pour les Japonais, améliorer les modèles pour la langue et la culture japonaises".

Avec une population de plus de 120 millions d'habitants avides de technologie, le Japon représente un marché attrayant, bien que compliqué, pour les développeurs d'IA.

Rejoindre l'avenir


SOUSCRIRE AUJOURD'HUI

Clair, concis, complet. Maîtrisez les développements de l'IA avec DailyAI

Eugène van der Watt

Eugene a une formation d'ingénieur en électronique et adore tout ce qui touche à la technologie. Lorsqu'il fait une pause dans sa consommation d'informations sur l'IA, vous le trouverez à la table de snooker.

×

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI

Inscrivez-vous à notre newsletter hebdomadaire et recevez un accès exclusif au dernier eBook de DailyAI : 'Mastering AI Tools : Your 2024 Guide to Enhanced Productivity" (Maîtriser les outils de l'IA : votre guide 2024 pour une meilleure productivité).

*En vous abonnant à notre lettre d'information, vous acceptez nos conditions d'utilisation. Politique de confidentialité et notre Conditions générales d'utilisation