Cuando Google anunció el lanzamiento de sus modelos Gemini hubo mucha expectación, ya que la empresa dijo que estaban a la altura de las ofertas de OpenAI. Puede que eso no sea del todo cierto.
Google dijo que su Géminis Ultra es mejor que el GPT-4. El modelo aún no ha salido a la venta, así que tendremos que tomarnos al pie de la letra los resultados de sus pruebas de referencia. Gemini Pro ya ha salido al mercado y Google dice que está a la par con GPT-3.5.
Investigadores de la Universidad Carnegie Mellon y de la plataforma de software de IA BerriAI sometieron a Gemini Pro a una serie de tareas para poner a prueba sus capacidades de comprensión y generación de lenguaje.
Realizaron las mismas pruebas utilizando GPT-3.5 Turbo, GPT-4 Turbo y la nueva tecnología de Mistral AI Modelo Mixtral 8x7B.
Gemini, de Google, se ha convertido recientemente en uno de los principales competidores de GPT, de OpenAI. Emocionante. Pero nos preguntamos:
¿Cómo de bueno es realmente Géminis?
En CMU realizamos un estudio imparcial, exhaustivo y reproducible en el que se compararon Gemini, GPT y Mixtral.
Papel: https://t.co/S3T7ediQLa
🧵 pic.twitter.com/NmEOeDd8pI- Graham Neubig (@gneubig) 19 de diciembre de 2023
Resultados
Como era de esperar, la GPT-4 se impuso, pero Google estará menos entusiasmado al ver cómo Gemini Pro se enfrentaba a la GPT 3.5 Turbo. En un resumen de los resultados del equipo, el papel dijo: "El modelo Pro de Gemini logró una precisión comparable pero ligeramente inferior a la de la versión actual de GPT 3.5 Turbo de OpenAI".
He aquí un resumen de los resultados.
Para ello, se utilizó la interfaz LiteLLM de BerriAI y cada modelo recibió exactamente las mismas instrucciones y el mismo protocolo de evaluación.
Los modelos se probaron en preguntas de elección múltiple, razonamiento de propósito general, razonamiento matemático, generación de código, traducción de idiomas y actuación como agente web.
Una de las razones por las que Gemini Pro obtuvo malos resultados en las preguntas de opción múltiple es que tenía un fuerte sesgo posicional. A menudo elegía la respuesta en la posición D, tanto si era correcta como si no. Curiosamente, esto es algo que el programa de Microsoft Medprompt resuelve con barajar.
A pesar de salir perdiendo en algunas de las pruebas, Gemini Pro superó a GPT-3.5 Turbo en dos áreas especialmente, la clasificación de palabras y la manipulación y traducción de símbolos.
En todas las tareas de traducción completadas por Gemini Pro, superó a todos los demás modelos, incluido GPT-4. Sin embargo, la puntuación final de Gemini Pro en las pruebas de traducción fue inferior a la de GPT-3.5 porque se negó a completar algunas solicitudes cuando entraron en acción sus excesivamente celosos controles de moderación de contenidos.
¿Y qué?
Google rebate las cifras a las que llegaron los investigadores e insiste en que sus cifras muestran que Gemini Pro es igual o mejor que GPT-3.5. Si tenemos en cuenta la infinidad de variables y damos a Google algo de margen, podríamos dividir la diferencia y decir que Gemini Pro y GPT-3.5 son prácticamente iguales.
La clave es que Gemini Pro, un nuevo modelo que Google ha desarrollado durante meses, no supera a un modelo que lleva más de un año en el mercado y que se puede utilizar gratuitamente a través de ChatGPT.
Se espera que Gemini Ultra salga a la venta a principios de 2024. ¿Cumplirá su promesa de ser mejor que GPT-4? Esperemos que el profesor Graham Neubig y su equipo realicen pronto pruebas de rendimiento similares.