Los usuarios reciben con frialdad el rendimiento de la GPT-4 Turbo

12 de noviembre de 2023

GPT-4 Turbo

Desde el reciente lanzamiento de GPT-4 Turbo, la última iteración de OpenAI de su modelo lingüístico, la comunidad de la IA ha suscitado reacciones encontradas. 

Aunque OpenAI promocionó GPT-4 Turbo como una versión más capaz y eficiente de su predecesora, los datos anecdóticos de los usuarios sugieren una experiencia variada, sobre todo en áreas que requieren capacidades de razonamiento y programación de alto nivel.

Las pruebas de referencia no han hecho más que empezar. 

En una prueba comparativa independiente, un usuario evaluó GPT-4 Turbo frente a GPT-4 y GPT-3.5 utilizando secciones de un examen oficial de lectura SAT 2008-2009.

Los resultados indicaron una notable diferencia de rendimiento:

  • GPT-3.5 obtuvo 690 puntos, con 10 respuestas incorrectas.
  • GPT-4 obtuvo una puntuación de 770, con sólo 3 respuestas incorrectas.
  • GPT-4 Turbo, probado en dos modos, obtuvo 740 (5 erróneos) y 730 (6 erróneos), respectivamente.

Otras referencias tempranas dicen lo contrario

Se ha realizado otro ejercicio preliminar de evaluación comparativa para valorar la capacidad de edición de código de esta nueva versión, utilizando Aideruna herramienta de línea de comandos de código abierto diseñada para la edición de código asistida por IA.

Se descubrió que GPT-4 Turbo (GPT-4-1106) presenta un mejor rendimiento en tareas de codificación, que es, por supuesto, una tarea diferente a la prueba de lenguaje natural mencionada anteriormente.

La prueba empleó Aider para facilitar las interacciones entre el usuario y el modelo GPT-4 para la edición de código en repositorios git locales. La prueba consistió en completar 133 ejercicios de codificación en Python de Exercism, lo que proporcionó una evaluación estructurada y cuantitativa de la eficacia y precisión de la edición de código del modelo.

El proceso se estructuró en dos fases:

  1. Aider proporcionó al modelo GPT-4 el archivo de código inicial, que contenía stubs de funciones y descripciones de problemas en lenguaje natural. La primera respuesta del modelo se aplicó directamente a la edición del código.
  2. Si el código no superaba el conjunto de pruebas, Aider presentaba al modelo la salida de error de la prueba, pidiéndole que corrigiera el código.

GPT-4-1106-Resultados de la revisión

  • Mejora de la velocidad: El modelo GPT-4-1106-preview mostró un notable aumento de la velocidad de procesamiento en comparación con sus predecesores.
  • Precisión del primer intento: El modelo demostró una tasa de éxito de 53% en la resolución correcta de los ejercicios en el primer intento, lo que supone una mejora con respecto a la tasa de éxito de 46 a 47% de las versiones anteriores de GPT-4.
  • Resultados tras las correcciones: Tras una segunda oportunidad de corregir el código basándose en los errores del conjunto de pruebas, el nuevo modelo alcanzó un nivel de rendimiento similar (~62%) al de los modelos GPT-4 más antiguos, con tasas de éxito de entre 63 y 64%. 

Experiencias de los usuarios en tareas de programación

Los desarrolladores que utilizan GPT-4 Turbo para tareas relacionadas con la codificación han informado de experiencias dispares.

Diversos usuarios de X y Reddit han notado un descenso en la capacidad del modelo para seguir instrucciones con precisión o retener el contexto de forma efectiva en escenarios de programación. Algunos han vuelto a usar GPT-4 tras enfrentarse a problemas con el nuevo modelo.

Un usuario expresó su frustración en Reddit, afirmando: "Sí, es bastante malo. Ejecuto GPT-4 en algunos scripts y mantengo pruebas de muestra para asegurarme de que funciona igual. Todas esas pruebas fallaron con el nuevo GPT-4-preview, y tuve que volver al antiguo. No puede razonar correctamente".

Otro comentó: "Es una locura algunas de las respuestas, me dan ganas de cancelar mi suscripción".

Las anécdotas son casi interminables; otro dice: "Pegué unas 100 líneas de código y me limité a preguntarle algunas cosas bastante básicas. El código que me devolvió era totalmente distinto del que le había mostrado, y casi totalmente erróneo. Nunca lo había visto alucinar tanto".

A pesar de los informes de los usuarios, OpenAI ha destacado los avances en GPT-4 Turbodestacando su ampliación de la fecha límite de conocimiento hasta abril de 2023 y una ventana de contexto ampliada capaz de manejar más de 300 páginas de texto. 

OpenAI también destacó el rendimiento optimizado del modelo, que lo hace más rentable. Sin embargo, los detalles sobre las técnicas de optimización específicas y su impacto en las capacidades del modelo siguen siendo limitados.

Sam Altman, CEO de OpenAI, ha anunciado hoy que Turbo ha sido editado y ha pedido a los usuarios que vuelvan a probar el modelo, admitiendo que hay problemas.

La empresa se enfrentó a críticas similares en torno a las versiones de GPT-4, que parecían caída del rendimiento desde su lanzamiento

OpenAI se enfrenta a las críticas en torno a la censura

ChatGPT, desarrollado por OpenAI, ha sido objeto de escrutinio por su gestión de la censura y su posible sesgo político. 

Los críticos sostienen que el modelo a veces muestra una tendencia a evitar o sesgar temas específicos, especialmente los considerados políticamente sensibles o controvertidos. 

Este comportamiento suele atribuirse a los datos de entrenamiento y a las directrices de moderación que configuran las respuestas de la IA. 

El objetivo de estas directrices es evitar la propagación de información errónea, incitación al odio y contenidos tendenciosos, pero algunos usuarios consideran que este planteamiento conduce a una corrección excesiva, que da lugar a la percepción de censura o parcialidad en las respuestas de la IA.

Por el contrario, Grok de xAI ha destacado por su enfoque aparentemente menos restrictivo de la moderación de contenidos. 

Los usuarios de Grok han observado que la plataforma parece más dispuesta a abordar una gama más amplia de temas, incluidos aquellos que podrían ser filtrados o tratados con más cautela por ChatGPT. 

Grok, impulsado por las travesuras de Elon Musk, ha sido considerado como "poner la espada" a la "IA despierta", de la que ChatGPT es buque insignia. 

En resumen, las pruebas comparativas sobre el rendimiento de GPT-4 Turbo son extremadamente limitadas en este momento, y basarse en informes anecdóticos es problemático.

El creciente éxito de OpenAI ha puesto a la empresa en el punto de mira de la gente, sobre todo con el lanzamiento de Grok, de xAI, y su resistencia a la "IA despierta". 

Conseguir una visión objetiva del rendimiento de GPT-4 Turbo es excepcionalmente difícil por ahora, pero el debate sobre si los resultados de ChatGPT están mejorando de verdad se mantendrá. 

Únete al futuro


SUSCRÍBETE HOY

Claro, conciso y completo. Conozca los avances de la IA con DailyAI

Sam Jeans

Sam es un escritor de ciencia y tecnología que ha trabajado en varias startups de IA. Cuando no está escribiendo, se le puede encontrar leyendo revistas médicas o rebuscando en cajas de discos de vinilo.

×

PDF GRATUITO EXCLUSIVO
Adelántese con DailyAI

Suscríbase a nuestro boletín semanal y reciba acceso exclusivo al último eBook de DailyAI: 'Mastering AI Tools: Su guía 2024 para mejorar la productividad'.

*Al suscribirse a nuestro boletín de noticias, acepta nuestra política de privacidad. Política de privacidad y nuestro Condiciones generales