Los investigadores descubren que Gemini ni siquiera puede vencer a GPT-3.5 Turbo

Cuando Google anunció el lanzamiento de sus modelos Gemini hubo mucha expectación, ya que la empresa dijo que estaban a la altura de las ofertas de OpenAI. Puede que eso no sea del todo cierto.

Google dijo que su Géminis Ultra es mejor que el GPT-4. El modelo aún no ha salido a la venta, así que tendremos que tomarnos al pie de la letra los resultados de sus pruebas de referencia. Gemini Pro ya ha salido al mercado y Google dice que está a la par con GPT-3.5.

Investigadores de la Universidad Carnegie Mellon y de la plataforma de software de IA BerriAI sometieron a Gemini Pro a una serie de tareas para poner a prueba sus capacidades de comprensión y generación de lenguaje.

Realizaron las mismas pruebas utilizando GPT-3.5 Turbo, GPT-4 Turbo y la nueva tecnología de Mistral AI Modelo Mixtral 8x7B.

Gemini, de Google, se ha convertido recientemente en uno de los principales competidores de GPT, de OpenAI. Emocionante. Pero nos preguntamos:

¿Cómo de bueno es realmente Géminis?

En CMU realizamos un estudio imparcial, exhaustivo y reproducible en el que se compararon Gemini, GPT y Mixtral.

Papel: https://t.co/S3T7ediQLa
🧵 pic.twitter.com/NmEOeDd8pI

- Graham Neubig (@gneubig) 19 de diciembre de 2023

Resultados

Como era de esperar, la GPT-4 se impuso, pero Google estará menos entusiasmado al ver cómo Gemini Pro se enfrentaba a la GPT 3.5 Turbo. En un resumen de los resultados del equipo, el papel dijo: "El modelo Pro de Gemini logró una precisión comparable pero ligeramente inferior a la de la versión actual de GPT 3.5 Turbo de OpenAI".

He aquí un resumen de los resultados.

Comparación de la puntuación del modelo para diferentes tareas. Fuente: arXiv

Para ello, se utilizó la interfaz LiteLLM de BerriAI y cada modelo recibió exactamente las mismas instrucciones y el mismo protocolo de evaluación.

Los modelos se probaron en preguntas de elección múltiple, razonamiento de propósito general, razonamiento matemático, generación de código, traducción de idiomas y actuación como agente web.

Una de las razones por las que Gemini Pro obtuvo malos resultados en las preguntas de opción múltiple es que tenía un fuerte sesgo posicional. A menudo elegía la respuesta en la posición D, tanto si era correcta como si no. Curiosamente, esto es algo que el programa de Microsoft Medprompt resuelve con barajar.

A pesar de salir perdiendo en algunas de las pruebas, Gemini Pro superó a GPT-3.5 Turbo en dos áreas especialmente, la clasificación de palabras y la manipulación y traducción de símbolos.

En todas las tareas de traducción completadas por Gemini Pro, superó a todos los demás modelos, incluido GPT-4. Sin embargo, la puntuación final de Gemini Pro en las pruebas de traducción fue inferior a la de GPT-3.5 porque se negó a completar algunas solicitudes cuando entraron en acción sus excesivamente celosos controles de moderación de contenidos.

¿Y qué?

Google rebate las cifras a las que llegaron los investigadores e insiste en que sus cifras muestran que Gemini Pro es igual o mejor que GPT-3.5. Si tenemos en cuenta la infinidad de variables y damos a Google algo de margen, podríamos dividir la diferencia y decir que Gemini Pro y GPT-3.5 son prácticamente iguales.

La clave es que Gemini Pro, un nuevo modelo que Google ha desarrollado durante meses, no supera a un modelo que lleva más de un año en el mercado y que se puede utilizar gratuitamente a través de ChatGPT.

Se espera que Gemini Ultra salga a la venta a principios de 2024. ¿Cumplirá su promesa de ser mejor que GPT-4? Esperemos que el profesor Graham Neubig y su equipo realicen pronto pruebas de rendimiento similares.

Los investigadores descubren que Gemini ni siquiera puede vencer a GPT-3.5 Turbo

Resultados

¿Y qué?

Únete al futuro

Eugene van der Watt

ENTRADAS RELACIONADAS

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

Los investigadores descubren que Gemini ni siquiera puede vencer a GPT-3.5 Turbo

Resultados

¿Y qué?

Únete al futuro

Eugene van der Watt

ENTRADAS RELACIONADAS

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

PDF GRATUITO EXCLUSIVOAdelántese con DailyAI

PDF GRATUITO EXCLUSIVO
Adelántese con DailyAI