¿Por qué construye Japón su propia versión de ChatGPT?

20 de septiembre de 2023

ChatGPT está disponible en varios idiomas, pero los investigadores japoneses afirman que el popular chatbot de inteligencia artificial no domina los entresijos de la lengua y la cultura japonesas.

Varias grandes empresas tecnológicas como NEC, Fujitsu y SoftBank están creando LLM entrenados exclusivamente con conjuntos de datos japoneses para superar este reto.

Keisuke Sakaguchi, investigador de procesamiento del lenguaje natural en la Universidad de Tohoku (Japón), explicó que "los LLM públicos actuales, como GPT, destacan en inglés, pero a menudo se quedan cortos en japonés debido a las diferencias en el sistema alfabético, los datos limitados y otros factores."

¿Por qué a ChatGPT le cuesta tanto responder en japonés?

Perdidos en la traducción

El principal motivo por el que ChatGPT tiene problemas con el japonés es que la mayor parte del conjunto de datos con el que se entrenó estaba formado por material en inglés. Y el inglés es mucho menos complicado que el japonés.

Las palabras inglesas están formadas por combinaciones de las 26 letras del alfabeto inglés. El japonés utiliza 48 caracteres básicos, más 2.136 kanji o caracteres chinos de uso habitual. Y la mayoría de esos kanji tienen múltiples pronunciaciones.

También hay otros 50.000 kanji que técnicamente forman parte de la lengua japonesa, pero que se utilizan muy poco.

Cuando un japonés utiliza ChatGPT, su pregunta se traduce al inglés, ChatGPT genera una salida en inglés y luego la traduce al japonés. No es de extrañar, por tanto, que cuando un japonés lee una respuesta de ChatGPT suene un poco raro.

Sakaguchi explicó que durante este proceso de traducción ChatGPT "a veces genera caracteres extremadamente raros que la mayoría de la gente no ha visto nunca, y resultan extrañas palabras desconocidas".

El sesgo ChatGPT y la cultura japonesa

Dado que ChatGPT se entrenó principalmente con datos en inglés, existe una cultura occidental implícita. sesgo en la forma de responder. La cultura determina nuestra forma de hablar, y cosas que se consideran educadas o aceptables en inglés pueden no serlo en la cultura japonesa.

Si utilizas ChatGPT para escribir una solicitud de empleo o una propuesta de inversión, el resultado sonará bastante mal para un japonés, ya que se perderán muchas de las expresiones estándar de cortesía.

Ya existen algunas LLM japonesas más pequeñas, pero están muy lejos del rendimiento incluso de la GPT-3.5, por no hablar de la GPT-4.

El grupo RIKEN, la Universidad de Tohoku, Fujitsu y el Instituto Tecnológico de Tokio están trabajando para cambiar esta situación. Su proyecto consiste en utilizar el superordenador japonés Fugaku para entrenar un LLM casi exclusivamente con datos de lengua japonesa.

Con 30B de parámetros, sigue siendo mucho más pequeño que modelos como GPT-3.5, pero será de código abierto y se ajustará mucho mejor al idioma y la cultura de Japón.

Japón va muy por detrás de países como Estados Unidos y China en el desarrollo de la inteligencia artificial. Si quiere hacer realidad sus ambiciones, Japón tendrá que superar una serie de retos industriales.

Según el Ministerio de Economía, Comercio e Industria japonés, el país tendrá un déficit de 789.000 ingenieros informáticos en 2030. Además, la falta de plataformas informáticas avanzadas significa que sus modelos de IA autóctonos dependerán en gran medida del superordenador Fugaku, propiedad del gobierno.

A principios de este año, Sam Altman dijo que OpenAI planeaba abrir una oficina en Japón y dijo al Primer Ministro japonés, Kishida, que OpenAI espera "construir algo grande para los japoneses, mejorar los modelos de la lengua y la cultura japonesas".

Con una población ávida de tecnología de más de 120 millones de personas, Japón presenta un mercado atractivo, aunque complicado, para los desarrolladores de IA.

Únete al futuro


SUSCRÍBETE HOY

Claro, conciso y completo. Conozca los avances de la IA con DailyAI

Eugene van der Watt

Eugene es ingeniero electrónico y le encanta todo lo relacionado con la tecnología. Cuando descansa de consumir noticias sobre IA, lo encontrará jugando al billar.

×

PDF GRATUITO EXCLUSIVO
Adelántese con DailyAI

Suscríbase a nuestro boletín semanal y reciba acceso exclusivo al último eBook de DailyAI: 'Mastering AI Tools: Su guía 2024 para mejorar la productividad'.

*Al suscribirse a nuestro boletín de noticias, acepta nuestra política de privacidad. Política de privacidad y nuestro Condiciones generales