Google juega otra carta con la IA en forma de Gemini 1.5 Pro

Google ha jugado otra carta con Gemini 1.5 Pro, un modelo que se basa en los logros de su predecesor, Gemini 1.0.

Con Google Bard muerto y enterrado, la familia Gemini parece multiplicarse más rápido de lo que la comunidad de la IA puede seguir la pista.

Ahora llega Gemini 1.5 Pro, que es más eficiente que el anterior modelo estrella de Google, Gemini Ultra.

De hecho, Gemini 1.5 Pro supera a Ultra en un puñado de pruebas comparativas, pero necesitaremos más información para realizar una comparación exhaustiva.

Gemini 1.5 Pro ofrece una nueva arquitectura de Mezcla de Expertos (MoE) y supera a Gemini Pro (ahora llamada Gemini 1.0 Pro) en 87% de pruebas comparativas.

Está disponible a través de la nueva plataforma de IA de pago de Google denominada Google One AI Premium, usurpando a Gemini Pro a pesar de que Google sólo actualización que hace un par de semanas.

Entonces, ¿para qué sirve un modelo que supera al 1.0 Pro pero es similar al Ultra?

Aparte de una mayor eficiencia informática frente a Ultra y un rendimiento superior en algunas áreas, la característica principal de Gemini 1.5 Pro es su Ventana contextual de 128.000 fichas, ampliable hasta 1 millón de fichas. Esto supera a GPT-4 Turbo con 128.000 y a Claude 2.1 con 200.000.

Para poner en contexto una ventana de 1 millón de contextos, a grandes rasgos se traduce en 700.000 palabras, 11 horas de audio o 1 hora de vídeo.

Esto permite procesar e interpretar conjuntos de datos colosales, incluidos libros enteros. Sin embargo, Google subraya que Gemini 1.5 Pro sigue siendo un modelo multimodal "de tamaño medio" diseñado para ser escalable y versátil.

¿Es Gemini 1.5 una GPT-4 killer? Ciertamente no.ot en rendimiento de fuerza bruta, pero debería superarlo en tareas específicas con cantidades muy grandes de información, como Google estaba dispuesto a demostrar.

Aplicaciones y capacidades de Gemini

Al igual que sus predecesores, las funciones de Gemini 1.5 Pro abarcan múltiples modalidades, desde texto hasta vídeo y audio.

Su ventana contextual ampliada permite al modelo procesar y razonar sobre grandes cantidades de información, como documentos extensos, extensas bases de código u horas de contenidos de vídeo.

En una demostración de Google, Gemini 1.5 Pro puede comprender e identificar detalles en las transcripciones de 402 páginas de la misión del Apolo 11 a la Luna.

Otro reto consistió en localizar escenas concretas de "Sherlock Jr.", de Buster Keaton, utilizando descripciones y bocetos, lo que 1,5 Pro consiguió a pesar de tardar hasta un minuto en algunos casos.

En otra tarea, Gemini 1.5 Pro tuvo que traducir el inglés a la compleja lengua guineana, el kalamang, y viceversa.

Esto era especialmente desalentador porque Kalamang no está representado en los datos de entrenamiento del modelo.

Google proporcionó al modelo material didáctico en su contexto de entrada, incluidas unas 500 páginas de gramática de referencia, una lista de palabras bilingüe (diccionario) con unas 2.000 entradas y un conjunto de unas 400 frases paralelas.

Estos materiales comprendían unas 250.000 fichas, que se ajustaban a la ventana contextual ampliada del modelo.

Con sólo el material didáctico proporcionado, Gemini 1.5 Pro tradujo con éxito frases entre el inglés y el kalamang. Este experimento demostró la capacidad del modelo para absorber y aplicar nuevas reglas lingüísticas y vocabulario del contexto, aprendiendo eficazmente un nuevo idioma sobre la marcha.

La calidad de las traducciones producidas por Gemini 1.5 Pro fue evaluada por expertos humanos que compararon el rendimiento del modelo con el de un estudiante de idiomas humano al que se le entregó el mismo conjunto de materiales.

Otra demostración midió el rendimiento del modelo a la hora de analizar y resolver problemas de más de 100.000 líneas de código.

Conclusiones del trabajo de investigación de Gemini 1.5 Pro

Google ha publicado un documento de investigación sobre Gemini 1.5 titulado "Gemini 1.5: comprensión multimodal de millones de contextos."

Está claro que Google pretende impulsar la ventana de contexto ampliada de Gemini 1.5 Pro, que actualmente domina a otros LLM en el extremo superior de su millón de fichas.

Gemini 1.5 Pro consigue una recuperación casi perfecta en tareas de recuperación de textos largos en diferentes modalidades y establece nuevos estándares en el control de calidad de documentos largos, el control de calidad de vídeos largos y el ASR de textos largos.

El documento detalla el rendimiento de Gemini 1.5 Pro en varias funciones básicas, comparándolo con los modelos Gemini 1.0:

Mejoras en el porcentaje de victorias: Gemini 1.5 Pro muestra un porcentaje de victorias de 87,1% frente a Gemini 1.0 Pro y de 54,8% frente a Gemini 1.0 Ultra en múltiples pruebas de rendimiento, lo que demuestra sus mejoras.
Rendimiento de áreas específicas: En las tareas relacionadas con el texto, el modelo alcanza un porcentaje de victorias de 100% frente a Gemini 1.0 Pro y de 77% frente a Gemini 1.0 Ultra. En las tareas relacionadas con la visión, los porcentajes de victorias son de 77% y 46% frente a Gemini 1.0 Pro y Ultra, respectivamente. En las tareas de audio, Gemini 1.0 Pro gana 60% y Gemini 1.0 Ultra 20%.

En general, Gemini 1.5 Pro es un buen Modelo GPT-3,5 con una ventana contextual más larga que la competencia.

¿Es eso suficiente para alejar a la gente de ChatGPT? La verdad es que, a menos que tengas libros enteros que analizar, los beneficios pueden ser escasos o nulos.

Cómo utilizar Gemini 1.5 Pro

Gemini 1.5 está disponible actualmente en una versión preliminar limitada para desarrolladores y clientes empresariales.

Las preguntas sobre los precios y la accesibilidad a largo plazo siguen sin respuesta. Google ha dado a entender que los niveles de precios variarán en función del tamaño de la ventana contextual, desde los 128.000 tokens estándar hasta el millón completo.

El coste exacto permanece en secreto, lo que suscita especulaciones sobre la posible inversión necesaria para aprovechar esta avanzada ventana contextual.

Algunos han destacado que, para cuando Gemini 1.5 Pro esté disponible para las masas, la competencia habrá avanzado.

Google se diferencia por un producto con el que sólo pueden experimentar unos pocos usuarios. Eso parece un poco alienante.

La familia Géminis: ¿accesible o esotérica?

En el espacio de dos o tres meses más o menos, Google levantó y mató a Bard, cambiándolo por Gemini Pro y lanzando Ultra, Nano, y ahora Gemini 1.5 Pro.

Esto ha supuesto cambiar el nombre de Gemini Pro (que era simplemente Gemini?) a Gemini 1.0 Pro.

Como resultado de este derroche de IA, Página de inicio de DeepMind para la familia Gemini es francamente enrevesada y abarrotada.

OpenAI, en muchos sentidos, hizo un hábil truco de marketing al mantener sus modelos bajo el paraguas de 'ChatGPT' desde el principio y mantener el acceso más o menos limitado sólo a la GPT-3.5 gratuita y a la GPT-4 de pago para los usuarios que no son de la API.

Gemini es Google apostando fuerte por la IA generativa, pero puede que se estanque en su oferta de productos, cada vez más ambigua.

Google juega otra carta con la IA en forma de Gemini 1.5 Pro

Aplicaciones y capacidades de Gemini

Conclusiones del trabajo de investigación de Gemini 1.5 Pro

Cómo utilizar Gemini 1.5 Pro

La familia Géminis: ¿accesible o esotérica?

Únete al futuro

Sam Jeans

ENTRADAS RELACIONADAS

La industria del juego se enfrenta a la crisis de los 40. ¿Es la inteligencia artificial su futuro?

OpenAI presenta la API en tiempo real y otras funciones para desarrolladores

El gobernador de California, Gavin Newsom, veta la ley SB 1047 sobre seguridad de la IA

¿Cómo le va a China en la carrera de la inteligencia artificial? Los gigantes tecnológicos y las nuevas empresas están superando los límites.

Google juega otra carta con la IA en forma de Gemini 1.5 Pro

Aplicaciones y capacidades de Gemini

Conclusiones del trabajo de investigación de Gemini 1.5 Pro

Cómo utilizar Gemini 1.5 Pro

La familia Géminis: ¿accesible o esotérica?

Únete al futuro

Sam Jeans

ENTRADAS RELACIONADAS

La industria del juego se enfrenta a la crisis de los 40. ¿Es la inteligencia artificial su futuro?

OpenAI presenta la API en tiempo real y otras funciones para desarrolladores

El gobernador de California, Gavin Newsom, veta la ley SB 1047 sobre seguridad de la IA

¿Cómo le va a China en la carrera de la inteligencia artificial? Los gigantes tecnológicos y las nuevas empresas están superando los límites.

PDF GRATUITO EXCLUSIVOAdelántese con DailyAI

PDF GRATUITO EXCLUSIVO
Adelántese con DailyAI