ChatGPT è disponibile in diverse lingue, ma i ricercatori giapponesi affermano che il popolare chatbot AI ha una scarsa padronanza delle complessità della lingua e della cultura giapponese.
Alcune grandi aziende tecnologiche come NEC, Fujitsu e SoftBank stanno creando LLM addestrati esclusivamente su set di dati giapponesi per superare questa sfida.
Keisuke Sakaguchi, ricercatore nel campo dell'elaborazione del linguaggio naturale presso la Tohoku University in Giappone, ha spiegato che "gli attuali LLM pubblici, come il GPT, eccellono in inglese, ma spesso non sono all'altezza in giapponese a causa delle differenze nel sistema alfabetico, dei dati limitati e di altri fattori".
Perché ChatGPT ha difficoltà a rispondere in giapponese?
Lost in translation
Il motivo principale per cui ChatGPT ha difficoltà con il giapponese è che la maggior parte del set di dati su cui è stato addestrato consisteva in materiale inglese. E la lingua inglese è molto meno complicata del giapponese.
Le parole inglesi sono costituite da combinazioni di 26 lettere dell'alfabeto inglese. La lingua giapponese utilizza 48 caratteri di base, più 2.136 kanji o caratteri cinesi usati regolarmente. La maggior parte di questi kanji ha più pronunce.
Esistono inoltre altri 50.000 kanji che fanno tecnicamente parte della lingua giapponese, ma che vengono utilizzati molto raramente.
Quando un giapponese usa ChatGPT, la richiesta viene tradotta in inglese, ChatGPT genera un output in inglese e poi lo traduce in giapponese. Non sorprende quindi che quando un giapponese legge una risposta da ChatGPT questa suoni un po' stonata.
Sakaguchi ha spiegato che durante questo processo di traduzione ChatGPT "a volte genera caratteri estremamente rari che la maggior parte delle persone non ha mai visto prima, e ne risultano strane parole sconosciute".
ChatGPT pregiudizi e cultura giapponese
Poiché ChatGPT è stato addestrato principalmente su dati inglesi, vi è un'implicita cultura occidentale. sbieco nel modo in cui risponde. La cultura modella il modo in cui parliamo, e ciò che è considerato educato o accettabile in inglese può non essere appropriato nella cultura giapponese.
Se si usa ChatGPT per scrivere una domanda di lavoro o una proposta di investimento, l'output suonerà piuttosto male a un giapponese, perché mancheranno molte delle espressioni standard di cortesia.
Esistono già alcuni LLM giapponesi più piccoli, ma sono molto lontani dalle prestazioni di un GPT-3,5, per non parlare del GPT-4.
Il gruppo RIKEN, l'Università Tohoku, Fujitsu e il Tokyo Institute of Technology stanno lavorando per cambiare questa situazione. Il loro progetto utilizza il supercomputer giapponese Fugaku per addestrare un LLM quasi esclusivamente sui dati della lingua giapponese.
Con 30B parametri è ancora molto più piccolo di modelli come GPT-3.5, ma sarà open source e molto più in linea con la lingua e la cultura giapponese.
Il Giappone è in ritardo rispetto a Paesi come gli Stati Uniti e la Cina nello sviluppo dell'IA. Per realizzare le proprie ambizioni in materia di IA, il Giappone dovrà superare una serie di sfide industriali.
Secondo il Ministero giapponese dell'Economia, del Commercio e dell'Industria, il Paese avrà un deficit di 789.000 ingegneri informatici entro il 2030. Inoltre, la mancanza di piattaforme informatiche avanzate significa che i modelli di IA sviluppati in patria saranno fortemente dipendenti dal supercomputer Fugaku, di proprietà del governo.
All'inizio di quest'anno Sam Altman ha dichiarato che OpenAI intendeva aprire un ufficio in Giappone e ha detto al primo ministro giapponese Kishida che OpenAI spera di "costruire qualcosa di grande per i giapponesi, rendere i modelli migliori per la lingua e la cultura giapponese".
Con una popolazione affamata di tecnologia di oltre 120 milioni di persone, il Giappone rappresenta un mercato interessante, anche se complicato, per gli sviluppatori di IA.