Los investigadores descubren que Gemini ni siquiera puede vencer a GPT-3.5 Turbo

22 de diciembre de 2023

Cuando Google anunció el lanzamiento de sus modelos Gemini hubo mucha expectación, ya que la empresa dijo que estaban a la altura de las ofertas de OpenAI. Puede que eso no sea del todo cierto.

Google dijo que su Géminis Ultra es mejor que el GPT-4. El modelo aún no ha salido a la venta, así que tendremos que tomarnos al pie de la letra los resultados de sus pruebas de referencia. Gemini Pro ya ha salido al mercado y Google dice que está a la par con GPT-3.5.

Investigadores de la Universidad Carnegie Mellon y de la plataforma de software de IA BerriAI sometieron a Gemini Pro a una serie de tareas para poner a prueba sus capacidades de comprensión y generación de lenguaje.

Realizaron las mismas pruebas utilizando GPT-3.5 Turbo, GPT-4 Turbo y la nueva tecnología de Mistral AI Modelo Mixtral 8x7B.

Resultados

Como era de esperar, la GPT-4 se impuso, pero Google estará menos entusiasmado al ver cómo Gemini Pro se enfrentaba a la GPT 3.5 Turbo. En un resumen de los resultados del equipo, el papel dijo: "El modelo Pro de Gemini logró una precisión comparable pero ligeramente inferior a la de la versión actual de GPT 3.5 Turbo de OpenAI".

He aquí un resumen de los resultados.

Comparación de la puntuación del modelo para diferentes tareas. Fuente: arXiv

Para ello, se utilizó la interfaz LiteLLM de BerriAI y cada modelo recibió exactamente las mismas instrucciones y el mismo protocolo de evaluación.

Los modelos se probaron en preguntas de elección múltiple, razonamiento de propósito general, razonamiento matemático, generación de código, traducción de idiomas y actuación como agente web.

Una de las razones por las que Gemini Pro obtuvo malos resultados en las preguntas de opción múltiple es que tenía un fuerte sesgo posicional. A menudo elegía la respuesta en la posición D, tanto si era correcta como si no. Curiosamente, esto es algo que el programa de Microsoft Medprompt resuelve con barajar.

A pesar de salir perdiendo en algunas de las pruebas, Gemini Pro superó a GPT-3.5 Turbo en dos áreas especialmente, la clasificación de palabras y la manipulación y traducción de símbolos.

En todas las tareas de traducción completadas por Gemini Pro, superó a todos los demás modelos, incluido GPT-4. Sin embargo, la puntuación final de Gemini Pro en las pruebas de traducción fue inferior a la de GPT-3.5 porque se negó a completar algunas solicitudes cuando entraron en acción sus excesivamente celosos controles de moderación de contenidos.

¿Y qué?

Google rebate las cifras a las que llegaron los investigadores e insiste en que sus cifras muestran que Gemini Pro es igual o mejor que GPT-3.5. Si tenemos en cuenta la infinidad de variables y damos a Google algo de margen, podríamos dividir la diferencia y decir que Gemini Pro y GPT-3.5 son prácticamente iguales.

La clave es que Gemini Pro, un nuevo modelo que Google ha desarrollado durante meses, no supera a un modelo que lleva más de un año en el mercado y que se puede utilizar gratuitamente a través de ChatGPT.

Se espera que Gemini Ultra salga a la venta a principios de 2024. ¿Cumplirá su promesa de ser mejor que GPT-4? Esperemos que el profesor Graham Neubig y su equipo realicen pronto pruebas de rendimiento similares.

Únete al futuro


SUSCRÍBETE HOY

Claro, conciso y completo. Conozca los avances de la IA con DailyAI

Eugene van der Watt

Eugene es ingeniero electrónico y le encanta todo lo relacionado con la tecnología. Cuando descansa de consumir noticias sobre IA, lo encontrará jugando al billar.

×

PDF GRATUITO EXCLUSIVO
Adelántese con DailyAI

Suscríbase a nuestro boletín semanal y reciba acceso exclusivo al último eBook de DailyAI: 'Mastering AI Tools: Su guía 2024 para mejorar la productividad'.

*Al suscribirse a nuestro boletín de noticias, acepta nuestra política de privacidad. Política de privacidad y nuestro Condiciones generales