ChatGPT ist in einer Reihe von Sprachen verfügbar, aber japanische Forscher sagen, dass der beliebte KI-Chatbot die Feinheiten der japanischen Sprache und Kultur nur unzureichend beherrscht.
Eine Reihe großer Technologieunternehmen wie NEC, Fujitsu und SoftBank entwickeln LLMs, die ausschließlich auf japanischen Datensätzen trainiert werden, um diese Herausforderung zu meistern.
Keisuke Sakaguchi, ein Forscher für die Verarbeitung natürlicher Sprache an der Tohoku Universität in Japan, erklärte, dass "die derzeitigen öffentlichen LLMs, wie z.B. GPT, im Englischen hervorragend sind, aber im Japanischen aufgrund von Unterschieden im Alphabetsystem, begrenzten Daten und anderen Faktoren oft versagen."
Warum ist es für ChatGPT so schwer, auf Japanisch zu antworten?
In der Übersetzung verloren
Der Hauptgrund dafür, dass ChatGPT Probleme mit Japanisch hat, ist, dass der Großteil des Datensatzes, auf dem es trainiert wurde, aus englischem Material bestand. Und die englische Sprache ist viel weniger kompliziert als die japanische.
Englische Wörter setzen sich aus Kombinationen der 26 Buchstaben des englischen Alphabets zusammen. Die japanische Sprache verwendet 48 Grundzeichen sowie 2.136 regelmäßig verwendete Kanji oder chinesische Zeichen. Und die meisten dieser Kanji haben mehrere Aussprachen.
Darüber hinaus gibt es weitere 50.000 Kanji, die technisch gesehen Teil der japanischen Sprache sind, aber nur sehr selten verwendet werden.
Wenn eine japanische Person ChatGPT benutzt, wird ihre Eingabeaufforderung ins Englische übersetzt, ChatGPT erzeugt eine englische Ausgabe und übersetzt sie dann ins Japanische. Es ist also nicht verwunderlich, dass eine japanische Person eine Antwort von ChatGPT liest, die sich ein wenig komisch anhört.
Sakaguchi erklärte, dass ChatGPT während dieses Übersetzungsprozesses "manchmal extrem seltene Zeichen erzeugt, die die meisten Menschen noch nie gesehen haben, und dass daraus seltsame unbekannte Wörter entstehen".
ChatGPT-Voreingenommenheit und japanische Kultur
Da ChatGPT hauptsächlich mit englischen Daten trainiert wurde, ist die westliche Kultur implizit vorhanden. Vorspannung in der Art und Weise, wie sie antwortet. Die Kultur prägt die Art, wie wir sprechen, und Dinge, die im Englischen als höflich oder akzeptabel gelten, sind in der japanischen Kultur vielleicht nicht angemessen.
Wenn Sie ChatGPT verwenden, um eine Bewerbung oder ein Investitionsangebot zu verfassen, dann wird die Ausgabe für einen Japaner ziemlich schrecklich klingen, weil viele Standardausdrücke der Höflichkeit fehlen werden.
Es gibt bereits einige kleinere japanische LLMs, aber sie sind weit von der Leistung eines GPT-3.5 entfernt, ganz zu schweigen von einem GPT-4.
Die RIKEN-Gruppe, die Tohoku-Universität, Fujitsu und das Tokyo Institute of Technology arbeiten daran, dies zu ändern. Ihr Projekt nutzt den japanischen Supercomputer Fugaku, um einen LLM fast ausschließlich auf japanischen Sprachdaten zu trainieren.
Mit 30B-Parametern ist es immer noch viel kleiner als Modelle wie GPT-3.5, aber es wird quelloffen sein und viel besser auf die Sprache und Kultur Japans abgestimmt.
Japan liegt in der KI-Entwicklung weit hinter Ländern wie den USA und China zurück. Um seine KI-Ambitionen zu verwirklichen, muss Japan eine Reihe von Herausforderungen für die Industrie bewältigen.
Nach Angaben des japanischen Ministeriums für Wirtschaft, Handel und Industrie wird das Land bis 2030 ein Defizit von 789.000 Softwareingenieuren haben. Außerdem bedeutet der Mangel an fortschrittlichen Computerplattformen, dass die einheimischen KI-Modelle stark auf den staatlichen Supercomputer Fugaku angewiesen sein werden.
Anfang dieses Jahres sagte Sam Altman, dass OpenAI plant, ein Büro in Japan zu eröffnen und sagte dem japanischen Premierminister Kishida, dass OpenAI hofft, "etwas Großartiges für die japanischen Menschen aufzubauen, die Modelle für die japanische Sprache und die japanische Kultur zu verbessern".
Mit einer technikbegeisterten Bevölkerung von über 120 Millionen Menschen ist Japan ein attraktiver, wenn auch komplizierter Markt für KI-Entwickler.