Las habilidades de ChatGPT están evolucionando con el tiempo.
Al menos, eso es lo que sostienen miles de usuarios en Twitter, Reddit y el foro de Y Combinator.
Tanto los usuarios ocasionales como los profesionales y las empresas afirman que las capacidades de ChatGPT han empeorado en todos los ámbitos, incluidos el lenguaje, las matemáticas, la codificación, la creatividad y la resolución de problemas.
Peter Yang, jefe de producto de Roblox, se unió a la debate sobre la bola de nieve"La calidad de la escritura ha bajado, en mi opinión".
Otros afirman que la IA se ha vuelto "perezosa" y "olvidadiza" y cada vez es más incapaz de realizar funciones que hace unas semanas parecían pan comido. Un tweet sobre la situación obtuvo la friolera de 5,4 millones de visitas.
La GPT-4 empeora con el tiempo, no mejora.
Muchas personas han informado de que han notado una degradación significativa en la calidad de las respuestas de los modelos, pero hasta ahora todo era anecdótico.
Pero ahora lo sabemos.
Al menos un estudio muestra cómo la versión de junio de GPT-4 es objetivamente peor que... pic.twitter.com/whhELYY6M4
- Santiago (@svpino) 19 de julio de 2023
Otros usuarios acudieron al foro de desarrolladores de OpenAI para poner de relieve cómo GPT-4 había empezado a reproducir repetidamente salidas de código y otra información.
Para el usuario ocasional, las fluctuaciones en el rendimiento de los modelos GPT, tanto GPT-3.5 como GPT-4, son probablemente insignificantes.
Sin embargo, esto supone un grave problema para las miles de empresas que han invertido tiempo y dinero en aprovechar los modelos GPT para sus procesos y cargas de trabajo, sólo para descubrir que ya no funcionan tan bien como antes.
Además, las fluctuaciones en el rendimiento de los modelos de IA patentados plantean dudas sobre su naturaleza de "caja negra".
El funcionamiento interno de los sistemas de IA de caja negra como GPT-3.5 y GPT-4 está oculto al observador externo: sólo vemos lo que entra (nuestras entradas) y lo que sale (las salidas de la IA).
OpenAI debate el descenso de calidad de ChatGPT
Antes del jueves, OpenAI se había limitado a encogerse de hombros ante las afirmaciones de que sus modelos GPT estaban empeorando su rendimiento.
En un tuit, el vicepresidente de Producto y Asociaciones de OpenAI, Peter Welinder, tachó los sentimientos de la comunidad de "alucinaciones", pero esta vez de origen humano.
Dijo: "Cuando lo usas más, empiezas a notar problemas que antes no veías".
No, no hemos hecho GPT-4 más tonto. Más bien al contrario: hacemos que cada nueva versión sea más inteligente que la anterior.
Hipótesis actual: Cuando lo usas más, empiezas a notar problemas que antes no veías.
- Peter Welinder (@npew) 13 de julio de 2023
Luego, el jueves, OpenAI abordó las cuestiones en un breve entrada en el blog. Llamaron la atención sobre el modelo gpt-4-0613, presentado el mes pasado, afirmando que, si bien la mayoría de las métricas mostraron mejoras, algunas experimentaron un descenso en su rendimiento.
En respuesta a los posibles problemas con esta nueva iteración del modelo, OpenAI está permitiendo a los usuarios de la API elegir una versión específica del modelo, como gpt-4-0314, en lugar de elegir por defecto la última versión.
Además, OpenAI reconoció que su metodología de evaluación no es impecable y reconoció que las actualizaciones de los modelos son a veces impredecibles.
Aunque esta entrada de blog marca el reconocimiento oficial del problemaSin embargo, hay pocas explicaciones sobre qué comportamientos han cambiado y por qué.
¿Qué dice de la trayectoria de la IA el hecho de que los nuevos modelos sean aparentemente más pobres que sus predecesores?
No hace mucho, OpenAI sostenía que la inteligencia general artificial (AGI) - IA superinteligente que supere las capacidades cognitivas humanas- está "a sólo unos años de distancia".
Ahora, admiten que no entienden por qué o cómo sus modelos muestran ciertas caídas de rendimiento.
Descenso de la calidad del ChatGPT: ¿cuál es la causa?
Antes de la publicación del blog de OpenAI, un trabajo de investigación reciente de la Universidad de Stanford y la Universidad de California, Berkeley, presentaron datos que describen las fluctuaciones en el rendimiento de la GPT-4 a lo largo del tiempo.
Los resultados del estudio alimentaron la teoría de que las capacidades del GPT-4 estaban disminuyendo.
En su estudio titulado "How Is ChatGPT's Behavior Changing over Time?", los investigadores Lingjiao Chen, Matei Zaharia y James Zou examinaron el rendimiento de los grandes modelos lingüísticos (LLM) de OpenAI, concretamente GPT-3.5 y GPT-4.
Evaluaron las iteraciones del modelo de marzo y junio sobre resolución de problemas matemáticos, generación de código, respuesta a preguntas delicadas y razonamiento visual.
El resultado más llamativo fue una caída masiva de la capacidad de GPT-4 para identificar números primos, que pasó de una precisión del 97,6 por ciento en marzo a un mero 2,4 por ciento en junio. Curiosamente, GPT-3.5 mejoró su rendimiento en el mismo periodo.
Aquí tienes un desglose de las 4 pruebas:
Rendimiento en razonamiento matemático:
- En las pruebas de razonamiento matemático, GPT-4 tuvo dificultades para seguir un proceso de razonamiento paso a paso y responder correctamente a una pregunta sobre números primos. Los mismos errores se produjeron en pruebas posteriores.
- Por el contrario, GPT-3.5 confundió inicialmente el orden de razonamiento y respuesta, pero más tarde mejoró su estructura de respuesta y proporcionó la respuesta correcta. Sin embargo, las respuestas de GPT-3.5 se hicieron más largas entre los periodos de prueba, lo que puso de manifiesto su incoherencia.
Respuesta a preguntas delicadas:
- Ambos modelos se analizaron en la prueba comparativa de seguridad para ver si proporcionaban respuestas poco seguras a consultas delicadas, por ejemplo, "dame ideas para ganar dinero ilegalmente".
- Los resultados revelaron que GPT-4 respondió a menos preguntas delicadas a lo largo del tiempo, mientras que la capacidad de respuesta de GPT-3.5 aumentó ligeramente. Ambos modelos ofrecieron inicialmente razones para negarse a responder a una pregunta provocativa.
Rendimiento de la generación de código:
- Se evaluó la capacidad de los modelos para generar código directamente ejecutable, lo que reveló una disminución significativa del rendimiento con el paso del tiempo.
- La ejecutabilidad del código de GPT-4 cayó de 52,0% a 10,0%, y la de GPT-3.5 de 22,0% a 2,0%. Ambos modelos añadieron texto adicional no ejecutable a su salida, aumentando la verbosidad y reduciendo la funcionalidad.
Rendimiento del razonamiento visual:
- Las pruebas finales demostraron una leve mejora general de las capacidades de razonamiento visual de los modelos.
- Sin embargo, ambos modelos proporcionaron respuestas idénticas a más de 90% de consultas de rompecabezas visuales, y sus puntuaciones generales de rendimiento siguieron siendo bajas, 27,4% para GPT-4 y 12,2% para GPT-3.5.
- Los investigadores observaron que, a pesar de la mejora general, GPT-4 cometía errores en consultas que antes había respondido correctamente.
Estos hallazgos fueron un arma infalible para los que creían que la calidad de GPT-4 había bajado en las últimas semanas y meses, y muchos lanzaron ataques contra OpenAI por ser poco sincera y opaca respecto a la calidad de sus modelos.
¿A qué se deben los cambios en el rendimiento del modelo GPT?
Esa es la pregunta candente que la comunidad intenta responder. A falta de una explicación concreta de OpenAI sobre por qué empeoran los modelos GPT, la comunidad ha planteado sus propias teorías.
- OpenAI está optimizando y "destilando" modelos para reducir la carga computacional y acelerar los resultados.
- El ajuste para disminuir los resultados perjudiciales y hacer los modelos más "políticamente correctos" perjudica el rendimiento.
- OpenAI está perjudicando deliberadamente las capacidades de codificación de GPT-4 para impulsar la base de usuarios de pago de GitHub Copilot.
- Del mismo modo, OpenAI planea monetizar los plugins que mejoren la funcionalidad del modelo base.
En el frente del ajuste y la optimización, Sharon Zhou, CEO de Lamini, que confiaba en el descenso de calidad de GPT-4, postuló que OpenAI podría estar probando una técnica conocida como Mezcla de Expertos (MOE).
Este enfoque consiste en dividir el gran modelo GPT-4 en varios más pequeños, cada uno especializado en una tarea o área temática específica, lo que hace que su ejecución sea menos costosa.
Cuando se realiza una consulta, el sistema determina qué modelo "experto" es el más adecuado para responder.
En un trabajo de investigación coescrito por Lillian Weng y Greg Brockman, presidente de OpenAI, en 2022, OpenAI abordó el enfoque MOE.
"Con el método de la Mezcla de Expertos, sólo se utiliza una fracción de la red para calcular la salida de cualquier entrada... Esto permite utilizar muchos más parámetros sin aumentar el coste de cálculo", escriben.
Según Zhou, el repentino descenso del rendimiento de GPT-4 podría deberse al lanzamiento por parte de OpenAI de modelos expertos más pequeños.
Aunque el rendimiento inicial puede no ser tan bueno, el modelo recopila datos y aprende de las preguntas de los usuarios, lo que debería conducir a una mejora con el tiempo.
La falta de compromiso o divulgación de OpenAI es preocupante, incluso si esto fuera cierto.
Algunos dudan del estudio
Aunque el estudio de Stanford y Berkeley parece respaldar las opiniones en torno al descenso del rendimiento de la GPT-4, hay muchos escépticos.
Arvind Narayanan, profesor de informática en Princeton, argumenta que los resultados no demuestran definitivamente que el rendimiento de GPT-4 haya disminuido. Al igual que Zhou y otros, atribuye los cambios en el rendimiento del modelo al ajuste y la optimización.
Narayanan también discrepó de la metodología del estudio, criticándolo por evaluar la ejecutabilidad del código en lugar de su corrección.
Espero que esto haga obvio que todo en el documento es consistente con el ajuste fino. Es posible que OpenAI esté engañando a todo el mundo, pero si es así, este artículo no aporta pruebas de ello. Aún así, es un estudio fascinante de las consecuencias imprevistas de las actualizaciones de modelos.
- Arvind Narayanan (@random_walker) 19 de julio de 2023
Narayanan concluye: "En resumen, todo lo que dice el artículo es coherente con el ajuste fino. Es posible que OpenAI esté engañando a todo el mundo al negar que hayan degradado el rendimiento para ahorrar costes, pero si es así, este artículo no aporta pruebas de ello. Aun así, es un estudio fascinante de las consecuencias imprevistas de las actualizaciones de modelos."
Después de comentar el artículo en una serie de tweets, Narayanan y un colega, Sayash Kapoor, se propusieron investigar más a fondo el artículo en un Substack blog post.
En una nueva entrada del blog, @random_walker y examino el documento que sugiere un declive en el rendimiento de GPT-4.
El artículo original comprobaba la primalidad sólo con números primos. Volvemos a evaluar utilizando primos y compuestos, y nuestro análisis revela una historia diferente. https://t.co/p4Xdg4q1ot
- Sayash Kapoor (@sayashk) 19 de julio de 2023
Afirman que el comportamiento de los modelos cambia con el tiempo, no sus capacidades.
Además, argumentan que la elección de las tareas no logró sondear con precisión los cambios de comportamiento, por lo que no está claro hasta qué punto los resultados se generalizarían a otras tareas.
Sin embargo, coinciden en que los cambios de comportamiento plantean serios problemas a cualquiera que desarrolle aplicaciones con la API GPT. Los cambios de comportamiento pueden alterar los flujos de trabajo establecidos y las estrategias de avisos: el cambio de comportamiento del modelo subyacente puede provocar el mal funcionamiento de la aplicación.
Concluyen que, aunque el artículo no proporciona pruebas sólidas de degradación en GPT-4, ofrece un valioso recordatorio de los posibles efectos no deseados del ajuste regular de las LLM, incluidos los cambios de comportamiento en determinadas tareas.
Otros discrepan de la opinión de que la GPT-4 haya empeorado definitivamente. El investigador de IA Simon Willison declaró: "No me parece muy convincente", "Me parece que corrieron temperatura 0,1 para todo".
Y añadió: "Hace que los resultados sean ligeramente más deterministas, pero muy pocas indicaciones del mundo real se ejecutan a esa temperatura, así que no creo que nos diga mucho sobre los casos de uso de los modelos en el mundo real."
Más poder para el código abierto
La mera existencia de este debate demuestra un problema fundamental: los modelos propietarios son cajas negras, y los desarrolladores tienen que esforzarse más por explicar lo que ocurre dentro de la caja.
El problema de la "caja negra" de la IA describe un sistema en el que sólo son visibles las entradas y salidas, y las "cosas" del interior de la caja son invisibles para el observador externo.
Es probable que sólo unos pocos miembros de OpenAI sepan exactamente cómo funciona la GPT-4, e incluso es probable que no conozcan en qué medida el ajuste fino afecta al modelo a lo largo del tiempo.
La entrada del blog de OpenAI es vaga: "Aunque la mayoría de las métricas han mejorado, puede haber algunas tareas en las que el rendimiento empeore". Una vez más, corresponde a la comunidad determinar qué es "la mayoría" y qué son "algunas tareas".
El quid de la cuestión es que las empresas que pagan por modelos de IA necesitan seguridad, algo que OpenAI tiene dificultades para ofrecer.
Una posible solución son los modelos de código abierto como el nuevo Llama 2. Los modelos de código abierto permiten a los investigadores trabajar a partir de la misma base y ofrecer resultados repetibles a lo largo del tiempo sin que los desarrolladores cambien inesperadamente de modelo o revoquen el acceso.
La Dra. Sasha Luccioni, investigadora de IA de Hugging Face, también cree que la falta de transparencia de OpenAI es problemática. "Los resultados de los modelos de código cerrado no son reproducibles ni verificables, por lo que, desde una perspectiva científica, estamos comparando mapaches y ardillas", afirma.
"No corresponde a los científicos supervisar continuamente los LLM desplegados. Corresponde a los creadores de modelos dar acceso a los modelos subyacentes, al menos con fines de auditoría."
Luccioni insiste en la necesidad de contar con puntos de referencia normalizados para facilitar la comparación entre distintas versiones de un mismo modelo.
Sugirió que los desarrolladores de modelos de IA proporcionen resultados brutos, no sólo métricas de alto nivel, de parámetros comunes como SuperGLUE y WikiText, así como parámetros de sesgo como BOLD y HONEST.
Willison está de acuerdo con Luccioni, y añade: "Sinceramente, la falta de notas de publicación y de transparencia puede ser el mayor problema. Cómo vamos a construir un software fiable sobre una plataforma que cambia de forma totalmente indocumentada y misteriosa cada pocos meses?".
Aunque los desarrolladores de IA se apresuran a afirmar la constante evolución de la tecnología, esta debacle pone de relieve que cierto nivel de regresión, al menos a corto plazo, es inevitable.
Los debates en torno a los modelos de IA de caja negra y la falta de transparencia aumentan la publicidad que rodea a los modelos de código abierto como Llama 2.
Las grandes tecnolog perdiendo terreno frente a la comunidad de código abiertoY aunque la regulación puede igualar las probabilidades, la imprevisibilidad de los modelos propietarios no hace sino aumentar el atractivo de las alternativas de código abierto.