¿Hizo trampa Google con el impresionante vídeo de demostración de Gemini?

9 de diciembre de 2023

El vídeo de Google en el que se mostraban las capacidades de su nuevo modelo Gemini era poco menos que asombroso. Por desgracia, la verdad sobre lo bueno que es Gemini y lo que puede hacer no está a la altura del bombo publicitario.

Cuando vimos por primera vez el vídeo de demostración en el que Gemini interactuaba en tiempo real con el presentador, nos quedamos alucinados. Estábamos tan entusiasmados que no vimos algunas cláusulas de exención de responsabilidad al principio y aceptamos el vídeo al pie de la letra.

El texto de los primeros segundos del vídeo dice: "Hemos estado capturando imágenes para probarlo en una amplia gama de retos, mostrándole una serie de imágenes y pidiéndole que razone sobre lo que ve".

Lo que realmente ocurrió entre bastidores es la causa de la críticas que recibió Google y las cuestiones éticas que plantea.

Géminis no estaba viendo un vídeo en directo del presentador dibujando un pato o moviendo tazas. Tampoco Géminis estaba respondiendo a las indicaciones de voz que se oían. El vídeo era una estilizada presentación de marketing de una verdad más simple.

En realidad, a Géminis se le presentaron imágenes fijas e indicaciones de texto más detalladas que las preguntas que se oyen al presentador.

Un portavoz de Google ha confirmado que las palabras que se oyen en el vídeo son "extractos reales de los mensajes utilizados para producir el resultado de Gemini que aparece a continuación".

Así pues, indicaciones de texto detalladas, imágenes fijas y respuestas de texto. Lo que Google demostró en realidad fue la funcionalidad que GPT-4 ha tenido durante meses.

GPT-4 identificando el dibujo del pato. Fuente: X / Ethan Mollick

Entrada en el blog de Google muestra las imágenes fijas y las indicaciones de texto que se utilizaron realmente.

En el ejemplo del coche, el presentador pregunta: "Basándose en su diseño, ¿cuál de estos iría más rápido?".

La pregunta era: "¿Cuál de estos coches es más aerodinámico? ¿El de la izquierda o el de la derecha? Explica por qué, utilizando detalles visuales específicos".

Y cuando se recrea el experimento en Bard, que Géminis potencia ahora, no siempre sale bien.

Bard elige el coche equivocado. Fuente: Bard

Realmente quería creer que Géminis podía seguir la bola mientras se movían las tres copas, pero lamentablemente eso tampoco es cierto.

La entrada del blog de Google muestra que se necesitaron muchas indicaciones y explicaciones para la demostración de barajar tazas.

Indicaciones para barajar la copa. Fuente: Google

Sigue siendo impresionante que un modelo de IA pueda hacer esto, pero no es lo que nos vendieron en el vídeo.

¿Es eso, Google?

Estamos especulando, pero lo más probable es que la demostración mostrara los resultados obtenidos por Google con Gemini Ultra, que aún no ha salido al mercado.

Así que cuando Gemini Ultra salga finalmente al mercado, parece que será capaz de lo que GPT-4 ha estado haciendo durante meses. Las implicaciones no son grandes.

¿Hemos tocado techo en lo que respecta a las capacidades de la IA? Si los mejores cerebros de la IA trabajan en Google, seguramente estarán impulsando la innovación de vanguardia.

¿O es que Google no sólo ha tardado en entrar en la carrera, sino que está luchando por mantenerse a la altura del resto? Las cifras de las pruebas comparativas que Google mostró con orgullo muestran que su modelo, que aún no ha salido a la venta, supera ligeramente al GPT-4 en algunas pruebas. ¿Cómo le irá contra GPT-5?

O tal vez el departamento de marketing de Google cometió un error de juicio con su vídeo, pero Gemini Ultra seguirá siendo mejor de lo que pensamos. Google dice que Gemini es realmente multimodal y que entiende de vídeo, lo que realmente será una primicia para los LLM.

Aún no hemos visto a ningún LLM demostrar la comprensión de vídeo, pero cuando lo hagamos será digno de entusiasmarse. ¿Será Gemini Ultra o GPT-5 quien nos lo demuestre primero?

Únete al futuro


SUSCRÍBETE HOY

Claro, conciso y completo. Conozca los avances de la IA con DailyAI

Eugene van der Watt

Eugene es ingeniero electrónico y le encanta todo lo relacionado con la tecnología. Cuando descansa de consumir noticias sobre IA, lo encontrará jugando al billar.

×

PDF GRATUITO EXCLUSIVO
Adelántese con DailyAI

Suscríbase a nuestro boletín semanal y reciba acceso exclusivo al último eBook de DailyAI: 'Mastering AI Tools: Su guía 2024 para mejorar la productividad'.

*Al suscribirse a nuestro boletín de noticias, acepta nuestra política de privacidad. Política de privacidad y nuestro Condiciones generales