ChatGPT is beschikbaar in een aantal talen, maar Japanse onderzoekers zeggen dat de populaire AI-chatbot de fijne kneepjes van de Japanse taal en cultuur slecht begrijpt.
Een aantal grote techbedrijven zoals NEC, Fujitsu en SoftBank maken LLM's die puur op Japanse datasets zijn getraind om deze uitdaging te overwinnen.
Keisuke Sakaguchi, een onderzoeker op het gebied van natuurlijke taalverwerking aan de Tohoku Universiteit in Japan, legt uit dat "huidige openbare LLM's, zoals GPT, uitblinken in het Engels, maar vaak tekortschieten in het Japans vanwege verschillen in het alfabet, beperkte gegevens en andere factoren."
Waarom vindt ChatGPT het zo moeilijk om in het Japans te reageren?
Verloren in de vertaling
De belangrijkste reden dat ChatGPT moeite heeft met Japans is omdat het grootste deel van de dataset waarop het getraind is uit Engels materiaal bestond. En de Engelse taal is een stuk minder ingewikkeld dan Japans.
Engelse woorden zijn opgebouwd uit combinaties van de 26 letters van het Engelse alfabet. De Japanse taal gebruikt 48 basiskarakters, plus 2.136 regelmatig gebruikte kanji of Chinese karakters. En de meeste van die kanji hebben meerdere uitspraken.
Er zijn nog eens 50.000 kanji die technisch gezien deel uitmaken van de Japanse taal, maar zeer zelden worden gebruikt.
Wanneer een Japanner ChatGPT gebruikt, wordt de prompt vertaald in het Engels, ChatGPT genereert een output in het Engels en vertaalt deze vervolgens naar het Japans. Het is dan ook niet verwonderlijk dat wanneer een Japanner een antwoord van ChatGPT leest, het een beetje vreemd klinkt.
Sakaguchi legde uit dat ChatGPT tijdens dit vertaalproces "soms extreem zeldzame tekens genereert die de meeste mensen nog nooit hebben gezien, en rare onbekende woorden tot gevolg heeft".
ChatGPT-vooringenomenheid en Japanse cultuur
Omdat ChatGPT voornamelijk is getraind op Engelse data, is er impliciet sprake van een Westerse cultuur. bias in de manier waarop het reageert. De cultuur bepaalt de manier waarop we spreken, en dingen die in het Engels beleefd of aanvaardbaar worden geacht, zijn misschien niet gepast in de Japanse cultuur.
Als je ChatGPT gebruikt om een sollicitatiebrief of een investeringspraatje te schrijven, dan zal de output behoorlijk vreselijk klinken voor een Japanner, omdat het veel van de standaard beleefdheidsuitdrukkingen zal missen.
Er zijn al enkele kleinere Japanse LLM's, maar die halen bij lange na niet de prestaties van zelfs GPT-3.5, om nog maar te zwijgen van GPT-4.
De RIKEN-groep, Tohoku University, Fujitsu en het Tokyo Institute of Technology proberen daar verandering in te brengen. Hun project gebruikt de Japanse Fugaku supercomputer om een LLM bijna uitsluitend op Japanse taalgegevens te trainen.
Met 30B parameters is het nog steeds een stuk kleiner dan modellen als GPT-3.5, maar het zal open source zijn en veel beter aansluiten bij de taal en cultuur van Japan.
Japan loopt op het gebied van AI-ontwikkeling ver achter op landen als de VS en China. Als Japan zijn AI-ambities wil waarmaken, zal het een aantal industriële uitdagingen moeten overwinnen.
Volgens het Japanse ministerie van Economie, Handel en Industrie zal het land tegen 2030 een tekort hebben van 789.000 software-ingenieurs. Het gebrek aan geavanceerde computerplatforms betekent ook dat de AI-modellen van eigen bodem sterk afhankelijk zullen zijn van de Fugaku supercomputer van de overheid.
Eerder dit jaar zei Sam Altman dat OpenAI van plan was een kantoor te openen in Japan en vertelde hij de Japanse premier Kishida dat OpenAI hoopt "iets geweldigs te bouwen voor Japanse mensen, de modellen beter te maken voor de Japanse taal en cultuur."
Met een technologiehongerige bevolking van meer dan 120 miljoen mensen vormt Japan een aantrekkelijke, zij het gecompliceerde markt voor AI-ontwikkelaars.