Perché il Giappone sta costruendo la propria versione di ChatGPT?

20 settembre 2023

ChatGPT è disponibile in diverse lingue, ma i ricercatori giapponesi affermano che il popolare chatbot AI ha una scarsa padronanza delle complessità della lingua e della cultura giapponese.

Alcune grandi aziende tecnologiche come NEC, Fujitsu e SoftBank stanno creando LLM addestrati esclusivamente su set di dati giapponesi per superare questa sfida.

Keisuke Sakaguchi, ricercatore nel campo dell'elaborazione del linguaggio naturale presso la Tohoku University in Giappone, ha spiegato che "gli attuali LLM pubblici, come il GPT, eccellono in inglese, ma spesso non sono all'altezza in giapponese a causa delle differenze nel sistema alfabetico, dei dati limitati e di altri fattori".

Perché ChatGPT ha difficoltà a rispondere in giapponese?

Lost in translation

Il motivo principale per cui ChatGPT ha difficoltà con il giapponese è che la maggior parte del set di dati su cui è stato addestrato consisteva in materiale inglese. E la lingua inglese è molto meno complicata del giapponese.

Le parole inglesi sono costituite da combinazioni di 26 lettere dell'alfabeto inglese. La lingua giapponese utilizza 48 caratteri di base, più 2.136 kanji o caratteri cinesi usati regolarmente. La maggior parte di questi kanji ha più pronunce.

Esistono inoltre altri 50.000 kanji che fanno tecnicamente parte della lingua giapponese, ma che vengono utilizzati molto raramente.

Quando un giapponese usa ChatGPT, la richiesta viene tradotta in inglese, ChatGPT genera un output in inglese e poi lo traduce in giapponese. Non sorprende quindi che quando un giapponese legge una risposta da ChatGPT questa suoni un po' stonata.

Sakaguchi ha spiegato che durante questo processo di traduzione ChatGPT "a volte genera caratteri estremamente rari che la maggior parte delle persone non ha mai visto prima, e ne risultano strane parole sconosciute".

ChatGPT pregiudizi e cultura giapponese

Poiché ChatGPT è stato addestrato principalmente su dati inglesi, vi è un'implicita cultura occidentale. sbieco nel modo in cui risponde. La cultura modella il modo in cui parliamo, e ciò che è considerato educato o accettabile in inglese può non essere appropriato nella cultura giapponese.

Se si usa ChatGPT per scrivere una domanda di lavoro o una proposta di investimento, l'output suonerà piuttosto male a un giapponese, perché mancheranno molte delle espressioni standard di cortesia.

Esistono già alcuni LLM giapponesi più piccoli, ma sono molto lontani dalle prestazioni di un GPT-3,5, per non parlare del GPT-4.

Il gruppo RIKEN, l'Università Tohoku, Fujitsu e il Tokyo Institute of Technology stanno lavorando per cambiare questa situazione. Il loro progetto utilizza il supercomputer giapponese Fugaku per addestrare un LLM quasi esclusivamente sui dati della lingua giapponese.

Con 30B parametri è ancora molto più piccolo di modelli come GPT-3.5, ma sarà open source e molto più in linea con la lingua e la cultura giapponese.

Il Giappone è in ritardo rispetto a Paesi come gli Stati Uniti e la Cina nello sviluppo dell'IA. Per realizzare le proprie ambizioni in materia di IA, il Giappone dovrà superare una serie di sfide industriali.

Secondo il Ministero giapponese dell'Economia, del Commercio e dell'Industria, il Paese avrà un deficit di 789.000 ingegneri informatici entro il 2030. Inoltre, la mancanza di piattaforme informatiche avanzate significa che i modelli di IA sviluppati in patria saranno fortemente dipendenti dal supercomputer Fugaku, di proprietà del governo.

All'inizio di quest'anno Sam Altman ha dichiarato che OpenAI intendeva aprire un ufficio in Giappone e ha detto al primo ministro giapponese Kishida che OpenAI spera di "costruire qualcosa di grande per i giapponesi, rendere i modelli migliori per la lingua e la cultura giapponese".

Con una popolazione affamata di tecnologia di oltre 120 milioni di persone, il Giappone rappresenta un mercato interessante, anche se complicato, per gli sviluppatori di IA.

Partecipa al futuro


ISCRIVITI OGGI

Chiaro, conciso, completo. Per conoscere gli sviluppi dell'IA con DailyAI

Eugene van der Watt

Eugene proviene da un background di ingegneria elettronica e ama tutto ciò che è tecnologico. Quando si prende una pausa dal consumo di notizie sull'intelligenza artificiale, lo si può trovare al tavolo da biliardo.

×

PDF GRATUITO ESCLUSIVO
Rimanere all'avanguardia con DailyAI

Iscriviti alla nostra newsletter settimanale e ricevi l'accesso esclusivo all'ultimo eBook di DailyAI: 'Mastering AI Tools: La tua guida 2024 per una maggiore produttività".

*Iscrivendosi alla nostra newsletter si accetta la nostra Informativa sulla privacy e il nostro Termini e condizioni