Varför bygger Japan sin egen version av ChatGPT?

20 september 2023

ChatGPT finns tillgänglig på ett antal språk, men japanska forskare menar att den populära AI-chatboten har en dålig förståelse för det japanska språket och den japanska kulturen.

Ett antal stora teknikföretag som NEC, Fujitsu och SoftBank skapar LLM:er som enbart tränas på japanska dataset för att övervinna denna utmaning.

Keisuke Sakaguchi, en forskare inom naturlig språkbehandling vid Tohoku University i Japan, förklarade att "Nuvarande offentliga LLM, som GPT, utmärker sig på engelska, men kommer ofta till korta på japanska på grund av skillnader i alfabetssystemet, begränsade data och andra faktorer."

Varför har ChatGPT så svårt att svara på japanska?

Förlorad i översättning

Den främsta anledningen till att ChatGPT kämpar med japanska är att majoriteten av datasetet som den tränades på bestod av engelskt material. Och det engelska språket är mycket mindre komplicerat än japanska.

Engelska ord består av kombinationer av de 26 bokstäverna i det engelska alfabetet. I det japanska språket används 48 grundtecken, plus 2 136 kanji eller kinesiska tecken som används regelbundet. Och de flesta av dessa kanji har flera uttal.

Det finns också ytterligare 50.000 kanji som tekniskt sett är en del av det japanska språket men som används mycket sällan.

När en japansk person använder ChatGPT översätts deras prompt till engelska, ChatGPT genererar en utdata på engelska och översätter den sedan till japanska. Det är därför inte förvånande att när en japansk person läser ett svar från ChatGPT låter det lite fel.

Sakaguchi förklarade att ChatGPT under denna översättningsprocess "ibland genererar extremt sällsynta tecken som de flesta människor aldrig har sett förut, och konstiga okända ord blir resultatet."

ChatGPT-fördomar och japansk kultur

Eftersom ChatGPT huvudsakligen utbildades på engelska data finns det en implicit västerländsk kulturell förspänning i sättet den svarar på. Kulturen formar vårt sätt att tala, och saker som anses vara artiga eller acceptabla på engelska kanske inte är lämpliga i den japanska kulturen.

Om du använder ChatGPT för att skriva en jobbansökan eller en investeringspitch kommer resultatet att låta ganska hemskt för en japansk person eftersom det kommer att sakna många av de vanliga artighetsuttrycken.

Det finns redan några mindre japanska LLM:er men de är långt ifrån prestandan hos ens GPT-3.5, för att inte tala om GPT-4.

RIKEN-gruppen, Tohoku University, Fujitsu och Tokyo Institute of Technology arbetar med att ändra på detta. I deras projekt används den japanska superdatorn Fugaku för att utbilda en LLM nästan uteslutande på japanska språkdata.

Med 30B parametrar är det fortfarande mycket mindre än modeller som GPT-3.5, men det kommer att vara öppen källkod och mycket bättre anpassat till Japans språk och kultur.

Japan ligger långt efter länder som USA och Kina i utvecklingen av AI. Om Japan ska kunna uppnå sina AI-ambitioner måste landet övervinna ett antal utmaningar inom industrin.

Enligt det japanska ministeriet för ekonomi, handel och industri kommer landet att ha ett underskott på 789.000 mjukvaruingenjörer år 2030. Bristen på avancerade datorplattformar innebär också att de inhemska AI-modellerna kommer att vara starkt beroende av den statligt ägda superdatorn Fugaku.

Tidigare i år sa Sam Altman att OpenAI planerade att öppna ett kontor i Japan och berättade för Japans premiärminister Kishida att OpenAI hoppas kunna "bygga något fantastiskt för det japanska folket, göra modellerna bättre för det japanska språket och den japanska kulturen".

Med en teknikhungrig befolkning på över 120 miljoner människor utgör Japan en tilltalande, om än komplicerad marknad för AI-utvecklare.

Bli en del av framtiden


PRENUMERERA IDAG

Tydlig, kortfattad och heltäckande. Få grepp om AI-utvecklingen med DagligaAI

Eugene van der Watt

Eugene kommer från en bakgrund som elektronikingenjör och älskar allt som har med teknik att göra. När han tar en paus från att konsumera AI-nyheter hittar du honom vid snookerbordet.

×

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI

Registrera dig för vårt veckovisa nyhetsbrev och få exklusiv tillgång till DailyAI:s senaste e-bok: "Mastering AI Tools: Din 2024-guide till förbättrad produktivitet".

*Genom att prenumerera på vårt nyhetsbrev accepterar du vår Integritetspolicy och våra Villkor och anvisningar