Google ha lanzado su familia Gemini de modelos de IA multimodal, una jugada espectacular en un sector aún conmocionado por lo sucedido en OpenAI.
Gemini es una familia multimodal de modelos capaces de procesar y comprender una mezcla de texto, imágenes, audio y vídeo.
Sundar Pichai, CEO de Google, y Demis Hassabis, CEO de Google DeepMind, tienen grandes expectativas puestas en Gemini. Google planea integrarlo en todos sus productos y servicios, incluidos Google Search, Maps y Chrome.
Nos complace anunciar 𝗚𝗲𝗺𝗶𝗻𝗶: @GoogleEl modelo de IA más grande y capaz del mundo.
Diseñada para ser multimodal de forma nativa, es capaz de comprender y trabajar con texto, código, audio, imagen y vídeo, y ofrece un rendimiento de vanguardia en muchas tareas. 🧵 https://t.co/mwHZTDTBuG pic.twitter.com/zfLlCGuzmV
- Google DeepMind (@GoogleDeepMind) 6 de diciembre de 2023
Gemini hace gala de una multimodalidad integral, ya que procesa e interactúa con texto, imágenes, vídeo y audio. Aunque nos hemos acostumbrado al procesamiento de texto e imágenes, el audio y el vídeo abren nuevos caminos y ofrecen nuevas formas de manejar los medios enriquecidos.
Hassabis señala: "Estos modelos entienden mejor el mundo que les rodea".
Pichai hizo hincapié en la conectividad del modelo con los productos y servicios de Google, afirmando: "Una de las cosas poderosas de este momento es que puedes trabajar en una tecnología subyacente y mejorarla e inmediatamente fluye a través de nuestros productos."
Géminis adoptará tres formas diferentes, que son:
- Gemini Nano: Una versión más ligera adaptada a los dispositivos Android, que permite funcionalidades offline y nativas.
- Gemini Pro: Una versión más avanzada, destinada a impulsar numerosos servicios de IA de Google, incluido Bard.
- Gemini Ultra: La iteración más potente, diseñada principalmente para centros de datos y aplicaciones empresariales, cuyo lanzamiento está previsto para el año que viene.
En términos de rendimiento, Google afirma que Gemini supera a GPT-4 en 30 de las 32 pruebas de rendimiento, destacando especialmente en la comprensión e interacción con vídeo y audio. Este rendimiento se atribuye al diseño de Gemini como modelo multisensorial desde el principio.
Bard recibe su mayor actualización hasta la fecha con una versión específicamente ajustada de Gemini Pro.
A partir de hoy, será mucho más capaz en cosas como:
🔘 Comprensión
🔘 Resumiendo
🔘 Razonamiento
🔘 Codificación
🔘 PlanificaciónY más. ↓ https://t.co/TJR12OioxU
- Google DeepMind (@GoogleDeepMind) 6 de diciembre de 2023
Además, Google quiso destacar la eficacia de Gemini.
Entrenado en las propias unidades de procesamiento tensorial (TPU) de Google, es más rápido y rentable que los modelos anteriores. Junto con Gemini, Google lanza TPU v5p para centros de datos, que mejora la eficiencia de la ejecución de modelos a gran escala.
¿Es Géminis el asesino de ChatGPT?
Google es claramente optimista respecto a Gemini. A principios de año, un fuga" de Semi Analysis sugirió que Gemini podría hacer saltar por los aires a la competencia, haciendo que Google pasara de ser un miembro periférico de la industria de la IA generativa a convertirse en el protagonista por delante de OpenAI.
Además de su multimodalidad, Gemini es supuestamente el primer modelo que supera a los expertos humanos en la prueba de comprensión lingüística multitarea masiva (MMLU), que evalúa el conocimiento del mundo y la capacidad de resolución de problemas en 57 materias, como matemáticas, física, historia, derecho, medicina y ética.
Pichai afirma que el lanzamiento de Gemini anuncia una "nueva era" en la IA, y subraya cómo Gemini se beneficiará del amplio catálogo de productos de Google.
La integración de motores de búsqueda es especialmente interesante, ya que Google domina este espacio y tiene a su alcance las ventajas del índice de búsqueda más completo del mundo.
El lanzamiento de Gemini coloca a Google en la carrera de la inteligencia artificial, y la gente se lanzará a probarlo contra GPT-4.
Pruebas y análisis comparativos de Gemini
En un entrada del blogGoogle ha publicado resultados de pruebas que muestran cómo Gemini Ultra supera a GPT-4 en la mayoría de las pruebas. También presume de capacidades de codificación avanzadas, con un rendimiento sobresaliente en pruebas de codificación como HumanEval y Natural2Code.
Aquí están los datos de referencia. Ten en cuenta que estas mediciones utilizan la versión Gemini Ultra aún no lanzada. Gemini no puede considerarse un asesino de ChatGPT hasta el año que viene. Y puedes apostar a que OpenAI se moverá para contrarrestar a Gemini lo antes posible.
Rendimiento de referencia de texto/NLP
Conocimientos generales:
- MMLU (Massive Multitask Language Understanding):
- Gemini Ultra: 90.0% (Cadena de pensamiento a 32 ejemplos)
- GPT-4: 86.4% (5-shot, reportado)
Razonamiento:
- Big-Bench Hard (conjunto diverso de tareas desafiantes que requieren un razonamiento de varios pasos):
- Gemini Ultra: 83,6% (3 disparos)
- GPT-4: 83,1% (3 disparos, API)
- DROP (comprensión lectora, puntuación F1):
- Gemini Ultra: 82,4 (disparos variables)
- GPT-4: 80.9 (3 tiros, reportado)
- HellaSwag (razonamiento de sentido común para tareas cotidianas):
- Gemini Ultra: 87,8% (10 disparos)
- GPT-4: 95,3% (10 disparos, comunicado)
Matemáticas:
- GSM8K (Manipulaciones aritméticas básicas, incluidos problemas matemáticos de primaria):
- Gemini Ultra: 94,4% (mayoría en 32 ejemplos)
- GPT-4: 92.0% (Cadena de pensamiento de 5 disparos, informado)
- MATEMÁTICAS (Problemas matemáticos desafiantes que incluyen álgebra, geometría, precálculo y otros):
- Gemini Ultra: 53.2% (4 disparos)
- GPT-4: 52,9% (4 disparos, API)
Código:
- HumanEval (generación de código Python):
- Gemini Ultra: 74,4% (0 disparos, prueba interna)
- GPT-4: 67.0% (0-shot, reportado)
- Natural2Code (generación de código Python, nuevo conjunto de datos retenido, similar a HumanEval, no filtrado en la web):
- Gemini Ultra: 74,9% (0 disparos)
- GPT-4: 73,9% (tiro 0, API)
Rendimiento multimodal de referencia
También se comparan las capacidades multimodales del modelo Gemini AI de Google con el GPT-4V de OpenAI.
Comprensión y tratamiento de imágenes:
- MMMU (Problemas multidisciplinares de razonamiento de nivel universitario):
- Gemini Ultra: 59,4% (0-shot pass@1, sólo píxeles)
- GPT-4V: 56.8% (0-shot pass@1)
- VQAv2 (Comprensión Natural de la Imagen):
- Gemini Ultra: 77,8% (0 disparos, sólo píxeles)
- GPT-4V: 77,2% (0 disparos)
- TextVQA (OCR en imágenes naturales):
- Gemini Ultra: 82,3% (0 disparos, sólo píxeles)
- GPT-4V: 78,0% (disparo 0)
- DocVQA (Comprensión de documentos):
- Gemini Ultra: 90,9% (0 disparos, sólo píxeles)
- GPT-4V: 88,4% (0 disparos, sólo píxeles)
- Infographic VQA (Comprensión infográfica):
- Gemini Ultra: 80,3% (0 disparos, sólo píxeles)
- GPT-4V: 75.1% (0 disparos, sólo píxeles)
- MathVista (Razonamiento matemático en contextos visuales):
- Gemini Ultra: 53.0% (0 disparos, sólo píxeles)
- GPT-4V: 49,9% (0 disparos)
Procesamiento de vídeo:
- VATEX (subtitulado de vídeo en inglés, puntuación CIDEr):
- Gemini Ultra: 62,7 (4 disparos)
- DeepMind Flamingo: 56,0 (4 disparos)
- Test de percepción MCQA (Video Question Answering):
- Gemini Ultra: 54,7% (0 disparos)
- SeViLA: 46,3% (0 disparos)
Procesamiento de audio:
- CoVoST 2 (traducción automática de voz, 21 idiomas, puntuación BLEU):
- Géminis Pro: 40,1
- Whisper v2: 29,1
- FLEURS (Reconocimiento automático del habla, 62 idiomas, tasa de error en las palabras):
- Gemini Pro: 7,6% (cuanto más bajo, mejor)
- Whisper v3: 17.6%
Compromiso ético de Google
En un entrada del blogGoogle subrayó su compromiso con unas prácticas de IA responsables y éticas.
Según Google, Gemini se sometió a pruebas más rigurosas que cualquier otra IA anterior de Google, en las que se evaluaron factores como la parcialidad, la toxicidad, las amenazas a la ciberseguridad y el potencial de uso indebido. Las técnicas de confrontación ayudaron a detectar problemas en una fase temprana. A continuación, expertos externos sometieron los modelos a pruebas de estrés y de "red-teamed" para identificar otros puntos ciegos.
Google afirma que la responsabilidad y la seguridad seguirán siendo prioridades en medio del rápido progreso de la IA. La empresa ayudó a poner en marcha grupos del sector para establecer mejores prácticas, como MLCommons y el Marco Seguro de IA (SAIF).
Google se compromete a seguir colaborando con investigadores, gobiernos y organizaciones de la sociedad civil de todo el mundo.
Lanzamiento de Gemini Ultra
Por ahora, Google está limitando el acceso a la iteración más potente de su modelo, Gemini Ultra, que llegará a principios del año que viene.
Antes de eso, desarrolladores y expertos seleccionados experimentarán con Ultra para dar su opinión. El lanzamiento coincidirá con una nueva plataforma de modelos de IA de vanguardia, o como Google llama a una "experiencia", denominada Bard Advanced.
Gemini para desarrolladores
A partir del 13 de diciembre, los desarrolladores y clientes empresariales tendrán acceso a Gemini Pro a través de la API Gemini, disponible en Google AI Studio o Google Cloud Vertex AI.
Google AI Studio: Google AI Studio es una herramienta web fácil de usar diseñada para ayudar a los desarrolladores a crear prototipos y lanzar aplicaciones utilizando una clave API. Este recurso gratuito es ideal para quienes se encuentran en las fases iniciales del desarrollo de aplicaciones.
Vertex AI: Vertex AI, una plataforma de IA más completa, ofrece servicios totalmente gestionados. Se integra a la perfección con Google Cloud y también ofrece seguridad empresarial, privacidad y cumplimiento de la normativa sobre gobernanza de datos.
Además de estas plataformas, los desarrolladores de Android podrán acceder a Gemini Nano para realizar tareas en el dispositivo. Estará disponible para su integración a través de AICore. Esta nueva capacidad del sistema debutará en Android 14, a partir de los dispositivos Pixel 8 Pro.
Google tiene la sartén por el mango, por ahora
OpenAI y Google se diferencian en un gran aspecto: Google desarrolla internamente un montón de otras herramientas y productos, incluidos los que utilizan miles de millones de personas cada día.
Hablamos, por supuesto, de Android, Chrome, Gmail, Google Workplace y Google Search.
OpenAI, a través de su alianza con Microsoft, tiene oportunidades similares a través de Copilot, pero aún no ha despegado realmente.
Y si somos sinceros, Google probablemente domine estas categorías de productos.
Google ha seguido adelante en la carrera de la IA, pero puede estar seguro de que esto no hará más que alimentar el impulso de OpenAI hacia la GPT-5 y la AGI.