O ChatGPT está disponível em várias línguas, mas os investigadores japoneses afirmam que o popular chatbot de IA não domina bem os meandros da língua e da cultura japonesas.
Algumas grandes empresas de tecnologia como a NEC, a Fujitsu e a SoftBank estão a criar LLMs treinados exclusivamente com conjuntos de dados japoneses para ultrapassar este desafio.
Keisuke Sakaguchi, um investigador de processamento de linguagem natural da Universidade de Tohoku, no Japão, explicou que "os actuais LLM públicos, como o GPT, são excelentes em inglês, mas muitas vezes ficam aquém em japonês devido a diferenças no sistema alfabético, dados limitados e outros factores".
Porque é que o ChatGPT tem tanta dificuldade em responder em japonês?
Perdido na tradução
A principal razão pela qual o ChatGPT tem dificuldades com o japonês deve-se ao facto de a maioria do conjunto de dados em que foi treinado consistir em material inglês. E a língua inglesa é muito menos complicada do que a japonesa.
As palavras inglesas são constituídas por combinações das 26 letras do alfabeto inglês. A língua japonesa usa 48 caracteres básicos, mais 2.136 kanji ou caracteres chineses usados regularmente. E a maioria desses kanjis tem várias pronúncias.
Existem ainda mais 50 000 kanjis que, tecnicamente, fazem parte da língua japonesa, mas que são muito raramente utilizados.
Quando um japonês utiliza o ChatGPT, o seu pedido é traduzido para inglês, o ChatGPT gera um resultado em inglês e depois traduz-o para japonês. Por isso, não é surpreendente que, quando um japonês lê uma resposta do ChatGPT, esta pareça um pouco estranha.
Sakaguchi explicou que, durante este processo de tradução, o ChatGPT "gera, por vezes, caracteres extremamente raros que a maioria das pessoas nunca viu antes, resultando em palavras estranhas e desconhecidas".
ChatO preconceito de GPT e a cultura japonesa
Uma vez que o ChatGPT foi treinado principalmente com dados em inglês, existe uma cultura ocidental implícita preconceito na forma como responde. A cultura molda a forma como falamos, e as coisas que são consideradas educadas ou aceitáveis em inglês podem não ser apropriadas na cultura japonesa.
Se utilizar o ChatGPT para escrever uma candidatura a um emprego ou uma proposta de investimento, o resultado vai soar bastante mal a um japonês, porque lhe vão faltar muitas das expressões padrão de cortesia.
Já existem alguns LLM japoneses mais pequenos, mas estão muito longe do desempenho do GPT-3.5, já para não falar do GPT-4.
O grupo RIKEN, a Universidade de Tohoku, a Fujitsu e o Instituto de Tecnologia de Tóquio estão a trabalhar para mudar isso. O seu projeto está a utilizar o supercomputador japonês Fugaku para treinar um LLM quase exclusivamente em dados de língua japonesa.
Com 30 mil parâmetros, continua a ser muito mais pequeno do que modelos como o GPT-3.5, mas será de código aberto e estará muito mais alinhado com a língua e a cultura do Japão.
O Japão está a alguma distância de países como os EUA e a China no desenvolvimento da IA. Para concretizar as suas ambições em matéria de IA, o Japão terá de ultrapassar uma série de desafios no sector.
De acordo com o Ministério da Economia, Comércio e Indústria do Japão, o país terá um défice de 789 000 engenheiros de software até 2030. Além disso, a falta de plataformas informáticas avançadas significa que os seus modelos de IA locais estarão fortemente dependentes do supercomputador Fugaku, propriedade do governo.
No início deste ano, Sam Altman disse que a OpenAI planeava abrir um escritório no Japão e disse ao Primeiro-Ministro japonês Kishida que a OpenAI espera "construir algo fantástico para o povo japonês, melhorar os modelos para a língua e cultura japonesas".
Com uma população ávida de tecnologia de mais de 120 milhões de pessoas, o Japão apresenta um mercado atrativo, embora complicado, para os criadores de IA.