Hvorfor bygger Japan sin egen version af ChatGPT?

20. september 2023

ChatGPT findes på en række sprog, men japanske forskere siger, at den populære AI-chatbot har en dårlig forståelse af det japanske sprogs og den japanske kulturs finurligheder.

En række store teknologivirksomheder som NEC, Fujitsu og SoftBank skaber LLM'er, der udelukkende er trænet på japanske datasæt, for at overvinde denne udfordring.

Keisuke Sakaguchi, der forsker i naturlig sprogbehandling ved Tohoku University i Japan, forklarede, at "de nuværende offentlige LLM'er, såsom GPT, udmærker sig på engelsk, men kommer ofte til kort på japansk på grund af forskelle i alfabetsystemet, begrænsede data og andre faktorer."

Hvorfor har ChatGPT så svært ved at svare på japansk?

Fortabt i oversættelsen

Hovedårsagen til, at ChatGPT har problemer med japansk, er, at størstedelen af det datasæt, den blev trænet på, bestod af engelsk materiale. Og det engelske sprog er meget mindre kompliceret end japansk.

Engelske ord består af kombinationer af de 26 bogstaver i det engelske alfabet. Det japanske sprog bruger 48 grundtegn plus 2.136 regelmæssigt anvendte kanji eller kinesiske tegn. Og de fleste af disse kanji har flere udtaler.

Der er også yderligere 50.000 kanji, som teknisk set er en del af det japanske sprog, men som bruges meget sjældent.

Når en japaner bruger ChatGPT, bliver deres prompt oversat til engelsk, ChatGPT genererer et output på engelsk og oversætter det derefter til japansk. Det er derfor ikke overraskende, at når en japaner læser et svar fra ChatGPT, lyder det lidt forkert.

Sakaguchi forklarede, at ChatGPT under denne oversættelsesproces "nogle gange genererer ekstremt sjældne tegn, som de fleste mennesker aldrig har set før, og det resulterer i mærkelige, ukendte ord."

ChatGPT-bias og japansk kultur

Fordi ChatGPT hovedsageligt blev trænet på engelske data, er der en implicit vestlig kultur. skævhed i den måde, den reagerer på. Kulturen former den måde, vi taler på, og ting, der betragtes som høflige eller acceptable på engelsk, er måske ikke passende i den japanske kultur.

Hvis du bruger ChatGPT til at skrive en jobansøgning eller et investeringsoplæg, vil resultatet lyde ret forfærdeligt for en japaner, fordi det vil mangle mange af de almindelige høflighedsudtryk.

Der findes allerede nogle mindre japanske LLM'er, men de er langt fra ydelsen i selv GPT-3.5, for slet ikke at tale om GPT-4.

RIKEN-gruppen, Tohoku University, Fujitsu og Tokyo Institute of Technology arbejder på at ændre det. Deres projekt bruger den japanske supercomputer Fugaku til at træne en LLM næsten udelukkende på japanske sprogdata.

Med 30B parametre er den stadig meget mindre end modeller som GPT-3.5, men den vil være open source og meget bedre tilpasset Japans sprog og kultur.

Japan ligger et stykke bag lande som USA og Kina i udviklingen af kunstig intelligens. Hvis Japan skal nå sine AI-ambitioner, skal landet overvinde en række udfordringer i industrien.

Ifølge det japanske økonomi-, handels- og industriministerium vil landet have et underskud på 789.000 softwareingeniører i 2030. Manglen på avancerede computerplatforme betyder også, at landets hjemmelavede AI-modeller vil være stærkt afhængige af den statsejede Fugaku-supercomputer.

Tidligere på året sagde Sam Altman, at OpenAI havde planer om at åbne et kontor i Japan, og han fortalte den japanske premierminister Kishida, at OpenAI håber at "bygge noget godt for det japanske folk, gøre modellerne bedre for det japanske sprog og den japanske kultur."

Med en teknologihungrende befolkning på over 120 millioner mennesker er Japan et tiltalende, men kompliceret marked for AI-udviklere.

Deltag i fremtiden


TILMELD DIG I DAG

Klar, kortfattet, omfattende. Få styr på AI-udviklingen med DailyAI

Eugene van der Watt

Eugene har en baggrund som elektronikingeniør og elsker alt, hvad der har med teknologi at gøre. Når han tager en pause fra at læse AI-nyheder, kan du finde ham ved snookerbordet.

×

GRATIS PDF EKSKLUSIVT
Vær på forkant med DailyAI

Tilmeld dig vores ugentlige nyhedsbrev og få eksklusiv adgang til DailyAI's seneste e-bog: 'Mastering AI Tools: Din 2024-guide til forbedret produktivitet'.

*Ved at tilmelde dig vores nyhedsbrev accepterer du vores Politik for beskyttelse af personlige oplysninger og vores Vilkår og betingelser