Google juega otra carta con la IA en forma de Gemini 1.5 Pro

15 de febrero de 2024

Géminis AI

Google ha jugado otra carta con Gemini 1.5 Pro, un modelo que se basa en los logros de su predecesor, Gemini 1.0. 

Con Google Bard muerto y enterrado, la familia Gemini parece multiplicarse más rápido de lo que la comunidad de la IA puede seguir la pista.

Ahora llega Gemini 1.5 Pro, que es más eficiente que el anterior modelo estrella de Google, Gemini Ultra.

De hecho, Gemini 1.5 Pro supera a Ultra en un puñado de pruebas comparativas, pero necesitaremos más información para realizar una comparación exhaustiva.

Puntos de referencia del modelo Gemini
Puntos de referencia del modelo Gemini

Gemini 1.5 Pro ofrece una nueva arquitectura de Mezcla de Expertos (MoE) y supera a Gemini Pro (ahora llamada Gemini 1.0 Pro) en 87% de pruebas comparativas. 

Está disponible a través de la nueva plataforma de IA de pago de Google denominada Google One AI Premium, usurpando a Gemini Pro a pesar de que Google sólo actualización que hace un par de semanas.

Entonces, ¿para qué sirve un modelo que supera al 1.0 Pro pero es similar al Ultra?

Aparte de una mayor eficiencia informática frente a Ultra y un rendimiento superior en algunas áreas, la característica principal de Gemini 1.5 Pro es su Ventana contextual de 128.000 fichas, ampliable hasta 1 millón de fichas. Esto supera a GPT-4 Turbo con 128.000 y a Claude 2.1 con 200.000. 

Para poner en contexto una ventana de 1 millón de contextos, a grandes rasgos se traduce en 700.000 palabras, 11 horas de audio o 1 hora de vídeo.

Esto permite procesar e interpretar conjuntos de datos colosales, incluidos libros enteros. Sin embargo, Google subraya que Gemini 1.5 Pro sigue siendo un modelo multimodal "de tamaño medio" diseñado para ser escalable y versátil. 

¿Es Gemini 1.5 una GPT-4 killer? Ciertamente no.ot en rendimiento de fuerza bruta, pero debería superarlo en tareas específicas con cantidades muy grandes de información, como Google estaba dispuesto a demostrar. 

Aplicaciones y capacidades de Gemini

Al igual que sus predecesores, las funciones de Gemini 1.5 Pro abarcan múltiples modalidades, desde texto hasta vídeo y audio.

Su ventana contextual ampliada permite al modelo procesar y razonar sobre grandes cantidades de información, como documentos extensos, extensas bases de código u horas de contenidos de vídeo. 

En una demostración de Google, Gemini 1.5 Pro puede comprender e identificar detalles en las transcripciones de 402 páginas de la misión del Apolo 11 a la Luna. 

Otro reto consistió en localizar escenas concretas de "Sherlock Jr.", de Buster Keaton, utilizando descripciones y bocetos, lo que 1,5 Pro consiguió a pesar de tardar hasta un minuto en algunos casos. 

En otra tarea, Gemini 1.5 Pro tuvo que traducir el inglés a la compleja lengua guineana, el kalamang, y viceversa.

Esto era especialmente desalentador porque Kalamang no está representado en los datos de entrenamiento del modelo.

Google proporcionó al modelo material didáctico en su contexto de entrada, incluidas unas 500 páginas de gramática de referencia, una lista de palabras bilingüe (diccionario) con unas 2.000 entradas y un conjunto de unas 400 frases paralelas.

Estos materiales comprendían unas 250.000 fichas, que se ajustaban a la ventana contextual ampliada del modelo.

Con sólo el material didáctico proporcionado, Gemini 1.5 Pro tradujo con éxito frases entre el inglés y el kalamang. Este experimento demostró la capacidad del modelo para absorber y aplicar nuevas reglas lingüísticas y vocabulario del contexto, aprendiendo eficazmente un nuevo idioma sobre la marcha.

La calidad de las traducciones producidas por Gemini 1.5 Pro fue evaluada por expertos humanos que compararon el rendimiento del modelo con el de un estudiante de idiomas humano al que se le entregó el mismo conjunto de materiales.

Otra demostración midió el rendimiento del modelo a la hora de analizar y resolver problemas de más de 100.000 líneas de código.

Conclusiones del trabajo de investigación de Gemini 1.5 Pro

Google ha publicado un documento de investigación sobre Gemini 1.5 titulado "Gemini 1.5: comprensión multimodal de millones de contextos." 

Está claro que Google pretende impulsar la ventana de contexto ampliada de Gemini 1.5 Pro, que actualmente domina a otros LLM en el extremo superior de su millón de fichas.

Gemini 1.5 Pro consigue una recuperación casi perfecta en tareas de recuperación de textos largos en diferentes modalidades y establece nuevos estándares en el control de calidad de documentos largos, el control de calidad de vídeos largos y el ASR de textos largos.

El documento detalla el rendimiento de Gemini 1.5 Pro en varias funciones básicas, comparándolo con los modelos Gemini 1.0:

  • Mejoras en el porcentaje de victorias: Gemini 1.5 Pro muestra un porcentaje de victorias de 87,1% frente a Gemini 1.0 Pro y de 54,8% frente a Gemini 1.0 Ultra en múltiples pruebas de rendimiento, lo que demuestra sus mejoras.
  • Rendimiento de áreas específicas: En las tareas relacionadas con el texto, el modelo alcanza un porcentaje de victorias de 100% frente a Gemini 1.0 Pro y de 77% frente a Gemini 1.0 Ultra. En las tareas relacionadas con la visión, los porcentajes de victorias son de 77% y 46% frente a Gemini 1.0 Pro y Ultra, respectivamente. En las tareas de audio, Gemini 1.0 Pro gana 60% y Gemini 1.0 Ultra 20%.

En general, Gemini 1.5 Pro es un buen Modelo GPT-3,5 con una ventana contextual más larga que la competencia. 

¿Es eso suficiente para alejar a la gente de ChatGPT? La verdad es que, a menos que tengas libros enteros que analizar, los beneficios pueden ser escasos o nulos. 

Cómo utilizar Gemini 1.5 Pro

Gemini 1.5 está disponible actualmente en una versión preliminar limitada para desarrolladores y clientes empresariales.

Las preguntas sobre los precios y la accesibilidad a largo plazo siguen sin respuesta. Google ha dado a entender que los niveles de precios variarán en función del tamaño de la ventana contextual, desde los 128.000 tokens estándar hasta el millón completo. 

El coste exacto permanece en secreto, lo que suscita especulaciones sobre la posible inversión necesaria para aprovechar esta avanzada ventana contextual.

Algunos han destacado que, para cuando Gemini 1.5 Pro esté disponible para las masas, la competencia habrá avanzado. 

Google se diferencia por un producto con el que sólo pueden experimentar unos pocos usuarios. Eso parece un poco alienante.

La familia Géminis: ¿accesible o esotérica?

En el espacio de dos o tres meses más o menos, Google levantó y mató a Bard, cambiándolo por Gemini Pro y lanzando Ultra, Nano, y ahora Gemini 1.5 Pro. 

Esto ha supuesto cambiar el nombre de Gemini Pro (que era simplemente Gemini?) a Gemini 1.0 Pro.

Como resultado de este derroche de IA, Página de inicio de DeepMind para la familia Gemini es francamente enrevesada y abarrotada. 

OpenAI, en muchos sentidos, hizo un hábil truco de marketing al mantener sus modelos bajo el paraguas de 'ChatGPT' desde el principio y mantener el acceso más o menos limitado sólo a la GPT-3.5 gratuita y a la GPT-4 de pago para los usuarios que no son de la API. 

Gemini es Google apostando fuerte por la IA generativa, pero puede que se estanque en su oferta de productos, cada vez más ambigua.

Únete al futuro


SUSCRÍBETE HOY

Claro, conciso y completo. Conozca los avances de la IA con DailyAI

Sam Jeans

Sam es un escritor de ciencia y tecnología que ha trabajado en varias startups de IA. Cuando no está escribiendo, se le puede encontrar leyendo revistas médicas o rebuscando en cajas de discos de vinilo.

×

PDF GRATUITO EXCLUSIVO
Adelántese con DailyAI

Suscríbase a nuestro boletín semanal y reciba acceso exclusivo al último eBook de DailyAI: 'Mastering AI Tools: Su guía 2024 para mejorar la productividad'.

*Al suscribirse a nuestro boletín de noticias, acepta nuestra política de privacidad. Política de privacidad y nuestro Condiciones generales