Los usuarios reciben con frialdad el rendimiento de la GPT-4 Turbo

Desde el reciente lanzamiento de GPT-4 Turbo, la última iteración de OpenAI de su modelo lingüístico, la comunidad de la IA ha suscitado reacciones encontradas.

Aunque OpenAI promocionó GPT-4 Turbo como una versión más capaz y eficiente de su predecesora, los datos anecdóticos de los usuarios sugieren una experiencia variada, sobre todo en áreas que requieren capacidades de razonamiento y programación de alto nivel.

Las pruebas de referencia no han hecho más que empezar.

En una prueba comparativa independiente, un usuario evaluó GPT-4 Turbo frente a GPT-4 y GPT-3.5 utilizando secciones de un examen oficial de lectura SAT 2008-2009.

Los resultados indicaron una notable diferencia de rendimiento:

GPT-3.5 obtuvo 690 puntos, con 10 respuestas incorrectas.
GPT-4 obtuvo una puntuación de 770, con sólo 3 respuestas incorrectas.
GPT-4 Turbo, probado en dos modos, obtuvo 740 (5 erróneos) y 730 (6 erróneos), respectivamente.

OpenAI afirma que GPT4-turbo es "mejor" que GPT4, pero he hecho mis propias pruebas y no creo que sea cierto.

Me referencié en la lectura SAT, que es una buena referencia humana para la capacidad de razonamiento. Tomó 3 secciones (67 preguntas) de una prueba oficial de 2008-2009 (2400 escala) y obtuvo el... pic.twitter.com/LzIYS3R9ny

- Jeffrey Wang (@wangzjeff) 7 de noviembre de 2023

Otras referencias tempranas dicen lo contrario

Se ha realizado otro ejercicio preliminar de evaluación comparativa para valorar la capacidad de edición de código de esta nueva versión, utilizando Aideruna herramienta de línea de comandos de código abierto diseñada para la edición de código asistida por IA.

Se descubrió que GPT-4 Turbo (GPT-4-1106) presenta un mejor rendimiento en tareas de codificación, que es, por supuesto, una tarea diferente a la prueba de lenguaje natural mencionada anteriormente.

La prueba empleó Aider para facilitar las interacciones entre el usuario y el modelo GPT-4 para la edición de código en repositorios git locales. La prueba consistió en completar 133 ejercicios de codificación en Python de Exercism, lo que proporcionó una evaluación estructurada y cuantitativa de la eficacia y precisión de la edición de código del modelo.

El proceso se estructuró en dos fases:

Aider proporcionó al modelo GPT-4 el archivo de código inicial, que contenía stubs de funciones y descripciones de problemas en lenguaje natural. La primera respuesta del modelo se aplicó directamente a la edición del código.
Si el código no superaba el conjunto de pruebas, Aider presentaba al modelo la salida de error de la prueba, pidiéndole que corrigiera el código.

GPT-4-1106-Resultados de la revisión

Mejora de la velocidad: El modelo GPT-4-1106-preview mostró un notable aumento de la velocidad de procesamiento en comparación con sus predecesores.
Precisión del primer intento: El modelo demostró una tasa de éxito de 53% en la resolución correcta de los ejercicios en el primer intento, lo que supone una mejora con respecto a la tasa de éxito de 46 a 47% de las versiones anteriores de GPT-4.
Resultados tras las correcciones: Tras una segunda oportunidad de corregir el código basándose en los errores del conjunto de pruebas, el nuevo modelo alcanzó un nivel de rendimiento similar (~62%) al de los modelos GPT-4 más antiguos, con tasas de éxito de entre 63 y 64%.

Experiencias de los usuarios en tareas de programación

Los desarrolladores que utilizan GPT-4 Turbo para tareas relacionadas con la codificación han informado de experiencias dispares.

Diversos usuarios de X y Reddit han notado un descenso en la capacidad del modelo para seguir instrucciones con precisión o retener el contexto de forma efectiva en escenarios de programación. Algunos han vuelto a usar GPT-4 tras enfrentarse a problemas con el nuevo modelo.

Un usuario expresó su frustración en Reddit, afirmando: "Sí, es bastante malo. Ejecuto GPT-4 en algunos scripts y mantengo pruebas de muestra para asegurarme de que funciona igual. Todas esas pruebas fallaron con el nuevo GPT-4-preview, y tuve que volver al antiguo. No puede razonar correctamente".

Otro comentó: "Es una locura algunas de las respuestas, me dan ganas de cancelar mi suscripción".

Las anécdotas son casi interminables; otro dice: "Pegué unas 100 líneas de código y me limité a preguntarle algunas cosas bastante básicas. El código que me devolvió era totalmente distinto del que le había mostrado, y casi totalmente erróneo. Nunca lo había visto alucinar tanto".

Lamentablemente, he notado algunos claros retrocesos en GPT-4 Turbo en comparación con GPT-4,
especialmente a la hora de seguir instrucciones.
No soy el único de la comunidad que se siente así.
No lo he probado en detalle, pero espero que tomen nota y mejoren.
Por lo demás, es bastante decepcionante.

- Augusdin (@augusdin) 12 de noviembre de 2023

A pesar de los informes de los usuarios, OpenAI ha destacado los avances en GPT-4 Turbodestacando su ampliación de la fecha límite de conocimiento hasta abril de 2023 y una ventana de contexto ampliada capaz de manejar más de 300 páginas de texto.

OpenAI también destacó el rendimiento optimizado del modelo, que lo hace más rentable. Sin embargo, los detalles sobre las técnicas de optimización específicas y su impacto en las capacidades del modelo siguen siendo limitados.

Sam Altman, CEO de OpenAI, ha anunciado hoy que Turbo ha sido editado y ha pedido a los usuarios que vuelvan a probar el modelo, admitiendo que hay problemas.

La empresa se enfrentó a críticas similares en torno a las versiones de GPT-4, que parecían caída del rendimiento desde su lanzamiento.

OpenAI se enfrenta a las críticas en torno a la censura

ChatGPT, desarrollado por OpenAI, ha sido objeto de escrutinio por su gestión de la censura y su posible sesgo político.

Los críticos sostienen que el modelo a veces muestra una tendencia a evitar o sesgar temas específicos, especialmente los considerados políticamente sensibles o controvertidos.

Este comportamiento suele atribuirse a los datos de entrenamiento y a las directrices de moderación que configuran las respuestas de la IA.

El objetivo de estas directrices es evitar la propagación de información errónea, incitación al odio y contenidos tendenciosos, pero algunos usuarios consideran que este planteamiento conduce a una corrección excesiva, que da lugar a la percepción de censura o parcialidad en las respuestas de la IA.

Por el contrario, Grok de xAI ha destacado por su enfoque aparentemente menos restrictivo de la moderación de contenidos.

Los usuarios de Grok han observado que la plataforma parece más dispuesta a abordar una gama más amplia de temas, incluidos aquellos que podrían ser filtrados o tratados con más cautela por ChatGPT.

Grok, impulsado por las travesuras de Elon Musk, ha sido considerado como "poner la espada" a la "IA despierta", de la que ChatGPT es buque insignia.

En resumen, las pruebas comparativas sobre el rendimiento de GPT-4 Turbo son extremadamente limitadas en este momento, y basarse en informes anecdóticos es problemático.

El creciente éxito de OpenAI ha puesto a la empresa en el punto de mira de la gente, sobre todo con el lanzamiento de Grok, de xAI, y su resistencia a la "IA despierta".

Conseguir una visión objetiva del rendimiento de GPT-4 Turbo es excepcionalmente difícil por ahora, pero el debate sobre si los resultados de ChatGPT están mejorando de verdad se mantendrá.

Los usuarios reciben con frialdad el rendimiento de la GPT-4 Turbo

Otras referencias tempranas dicen lo contrario

GPT-4-1106-Resultados de la revisión

Experiencias de los usuarios en tareas de programación

OpenAI se enfrenta a las críticas en torno a la censura

Únete al futuro

Sam Jeans

ENTRADAS RELACIONADAS

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

Los usuarios reciben con frialdad el rendimiento de la GPT-4 Turbo

Otras referencias tempranas dicen lo contrario

GPT-4-1106-Resultados de la revisión

Experiencias de los usuarios en tareas de programación

OpenAI se enfrenta a las críticas en torno a la censura

Únete al futuro

Sam Jeans

ENTRADAS RELACIONADAS

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

PDF GRATUITO EXCLUSIVOAdelántese con DailyAI

PDF GRATUITO EXCLUSIVO
Adelántese con DailyAI