Hvorfor bygger Japan sin egen versjon av ChatGPT?

20. september 2023

ChatGPT er tilgjengelig på en rekke språk, men japanske forskere sier at den populære AI-chatboten har en dårlig forståelse av det japanske språket og den japanske kulturen.

En rekke store teknologiselskaper som NEC, Fujitsu og SoftBank utvikler LLM-er som er trent utelukkende på japanske datasett for å løse denne utfordringen.

Keisuke Sakaguchi, som forsker på naturlig språkbehandling ved Tohoku-universitetet i Japan, forklarer at "Dagens offentlige LLM-er, som GPT, utmerker seg på engelsk, men kommer ofte til kort på japansk på grunn av forskjeller i alfabetet, begrensede data og andre faktorer."

Hvorfor har ChatGPT så vanskelig for å svare på japansk?

Lost in translation

Hovedgrunnen til at ChatGPT sliter med japansk, er at størstedelen av datasettet den ble trent på, besto av engelsk materiale. Og det engelske språket er mye mindre komplisert enn japansk.

Engelske ord består av kombinasjoner av de 26 bokstavene i det engelske alfabetet. Det japanske språket bruker 48 grunntegn, pluss 2136 kanji eller kinesiske tegn som brukes regelmessig. Og de fleste av disse kanjiene har flere uttaler.

Det finnes også ytterligere 50 000 kanji som teknisk sett er en del av det japanske språket, men som brukes svært sjelden.

Når en japaner bruker ChatGPT, blir ledeteksten oversatt til engelsk, ChatGPT genererer en utdata på engelsk og oversetter den deretter til japansk. Det er derfor ikke overraskende at når en japansk person leser et svar fra ChatGPT, høres det litt feil ut.

Sakaguchi forklarer at ChatGPT i løpet av denne oversettelsesprosessen "noen ganger genererer ekstremt sjeldne tegn som folk flest aldri har sett før, og det resulterer i merkelige, ukjente ord".

ChatGPT-skjevhet og japansk kultur

Fordi ChatGPT hovedsakelig ble trent på engelske data, ligger det implisitt en vestlig kulturell skjevhet i måten den reagerer på. Kulturen former måten vi snakker på, og ting som anses som høflige eller akseptable på engelsk, er kanskje ikke passende i den japanske kulturen.

Hvis du bruker ChatGPT til å skrive en jobbsøknad eller en investeringspitch, vil resultatet høres ganske forferdelig ut for en japaner, fordi det vil mangle mange av de vanlige høflighetsuttrykkene.

Det finnes allerede noen mindre japanske LLM-er, men de er langt unna ytelsen til og med GPT-3.5, for ikke å snakke om GPT-4.

RIKEN-gruppen, Tohoku University, Fujitsu og Tokyo Institute of Technology jobber med å endre på dette. Prosjektet deres bruker den japanske superdatamaskinen Fugaku til å trene opp en LLM nesten utelukkende på japanske språkdata.

Med 30B parametere er den fortsatt mye mindre enn modeller som GPT-3.5, men den vil ha åpen kildekode og være mye bedre tilpasset språket og kulturen i Japan.

Japan ligger et stykke bak land som USA og Kina i utviklingen av kunstig intelligens. Hvis Japan skal nå sine ambisjoner om kunstig intelligens, må landet overvinne en rekke utfordringer i bransjen.

Ifølge det japanske økonomi-, handels- og industridepartementet vil landet ha et underskudd på 789 000 programvareingeniører innen 2030. Mangelen på avanserte databehandlingsplattformer betyr også at landets egenutviklede AI-modeller i stor grad vil være avhengige av den statseide superdatamaskinen Fugaku.

Tidligere i år sa Sam Altman at OpenAI planla å åpne et kontor i Japan, og fortalte Japans statsminister Kishida at OpenAI håper å "bygge noe flott for det japanske folk, gjøre modellene bedre for japansk språk og japansk kultur".

Med en teknologihungrig befolkning på over 120 millioner mennesker utgjør Japan et tiltalende, om enn komplisert marked for AI-utviklere.

Bli med i fremtiden


ABONNER I DAG

Tydelig, kortfattet og omfattende. Få et grep om AI-utviklingen med DagligAI

Eugene van der Watt

Eugene har bakgrunn som elektroingeniør og elsker alt som har med teknologi å gjøre. Når han tar en pause fra AI-nyhetene, finner du ham ved snookerbordet.

×

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI

Meld deg på vårt ukentlige nyhetsbrev og få eksklusiv tilgang til DailyAIs nyeste e-bok: "Mastering AI Tools: Din 2024-guide til økt produktivitet".

*Ved å abonnere på vårt nyhetsbrev aksepterer du vår Retningslinjer for personvern og vår Vilkår og betingelser