Se espera que Google lance Gemini, su nuevo LLM, en diciembre y que supere a GPT-4 con cierta diferencia.
Gemini es un modelo fundacional construido desde cero por los equipos DeepMind y Brain AI de Google. Es el primer modelo verdaderamente multimodal, lo que significa que puede procesar texto, imágenes y vídeo. GPT-4 sólo obtiene un 2 sobre 3 en este aspecto.
Gran parte del bombo que rodea el rendimiento de Gemini se basa en una informe de Semi Analysis que afirma audazmente que "Géminis multiplica por 5 la GPT-4".
La cifra de rendimiento 5 veces es una referencia a la potencia de cálculo utilizada para entrenar a Gemini. Se estima que es unas 5 veces mayor que la utilizada para entrenar GPT-4. La potencia de cálculo es una referencia interesante, pero más FLOPS no implica automáticamente un modelo mejor.
A falta de cifras oficiales de rendimiento, Sam Altman se apresuró a tuitear un comentario sarcástico sobre las afirmaciones.
increible que google haya conseguido que ese tipo de semianalisis publique su gráfico interno de marketing/reclutamiento lol
- Sam Altman (@sama) 29 de agosto de 2023
Elon Musk respondió a su tuit preguntando: "¿Están equivocados los números?", pero no obtuvo respuesta de Altman.
Gemini tiene más de 430.000 millones de parámetros, frente a los 200.000 millones que se calcula que tiene GPT-4 en su extremo superior. Se habría necesitado mucha potencia de procesamiento para entrenar un modelo de ese tamaño, y Google tiene de sobra.
El informe de Semi Analysis utilizó las categorías "GPU-rich" y "GPU-poor" para comparar a Google con empresas de IA que disponen de mucha menos potencia de cálculo.
La comparación es justa, aunque utilizar "GPU" cuando se trata de Google es un poco inapropiado. La verdadera ventaja de Google para entrenar sus modelos son sus unidades de procesamiento tensorial (TPU).
Mientras todo el mundo se apresura a comprar las GPU de Nvidia, Google lleva la delantera en la carrera del entrenamiento de modelos con sus chips TPU. Gemini se entrenó con los chips TPUv5 de Google, que pueden funcionar simultáneamente con 16.384 chips.
Géminis y AlphaGo
Parte de la salsa secreta de Gemini proviene de cómo Google integró las capacidades de AlphaGo. AlphaGo es el programa desarrollado por DeepMind que venció al campeón mundial del juego Go.
Se espera que la toma de decisiones estratégicas y la comprensión dinámica del contexto que condujeron a esa victoria den a Géminis una gran ventaja sobre la capacidad de razonamiento de GPT-4.
AlphaGo mejoró en Go jugando contra sí mismo. Gemini podría emplear el autojuego de forma similar para aprender de sus propias interacciones, y no solo de la interacción con el usuario.
Los datos son la verdadera diferencia
Probablemente, la ventaja más significativa de Google reside en el enorme volumen de datos de que dispone para entrenar a Gemini.
OpenAI acaparó todos los datos de Internet que pudo, pero ahora está luchando contra la demandas inevitables y está viendo su GPTBot cada vez más bloqueado.
Google probablemente hizo su parte de "arriesgado" raspado de datos, pero posee enormes cantidades de datos de su propiedad. No está claro qué se incluyó en el conjunto de datos de entrenamiento de Gemini, pero podría incluir fácilmente datos de YouTube, Google Books, Google Scholar y su enorme índice de búsqueda.
Con suerte, no tendremos que esperar hasta diciembre para realizar comparaciones reales y comprobar si Gemini es realmente mejor que GPT-4. ¿Podría OpenAI estar retrasando el lanzamiento de GPT-5 lo suficiente como para superar a Gemini tras su lanzamiento?