Espera-se que a Google lance o Gemini, o seu novo LLM, em dezembro e espera-se que supere o GPT-4 em alguma distância.
O Gemini é um modelo fundamental construído de raiz pelas equipas DeepMind e Brain AI da Google. É o primeiro modelo verdadeiramente multimodal, o que significa que pode processar texto, imagens e vídeo. O GPT-4 só consegue 2 de 3 nessa pontuação.
Grande parte do entusiasmo em torno do desempenho do Gemini baseia-se numa relatório da Semi Analysis que afirma corajosamente que "Gemini Smashes GPT-4 By 5X".
O valor de desempenho 5x é uma referência ao poder de computação utilizado para treinar o Gemini. Estima-se que seja cerca de 5 vezes superior ao que foi utilizado para treinar o GPT-4. O poder de computação é uma referência interessante, mas mais FLOPS não implica automaticamente um modelo melhor.
Na ausência de dados oficiais sobre o desempenho, Sam Altman não tardou a tweetar um comentário sarcástico sobre as alegações.
é incrível que a google tenha conseguido que aquele tipo da semianálise publicasse o seu gráfico interno de marketing/recrutamento lol
- Sam Altman (@sama) 29 de agosto de 2023
Elon Musk respondeu ao seu tweet perguntando: "Os números estão errados?", mas não obteve resposta de Altman.
O Gemini tem mais de 430 mil milhões de parâmetros, em comparação com a estimativa máxima de 200 mil milhões que o GPT-4 tem. Teria sido necessário muito poder de processamento para treinar um modelo desta dimensão, e a Google tem muito.
O relatório da Semi Analysis utilizou os termos "GPU-rich" e "GPU-poor" para comparar a Google com as empresas de IA que dispõem de uma capacidade de computação significativamente inferior.
A comparação é justa, mesmo que utilizar "GPU" quando se trata da Google seja um pouco incorreto. A verdadeira vantagem da Google no treino dos seus modelos são as suas unidades de processamento de tensores ou TPU.
Enquanto toda a gente se esforça por comprar as GPUs da Nvidia, a Google está muito à frente na corrida do treino de modelos com os seus chips TPU. O Gemini foi treinado nos chips TPUv5 da Google, que podem funcionar simultaneamente com 16.384 chips.
Gemini e AlphaGo
Parte do molho secreto do Gemini vem da forma como a Google integrou as capacidades do AlphaGo. O AlphaGo é o programa desenvolvido pela DeepMind que derrotou o campeão mundial do jogo Go.
Espera-se que a tomada de decisões estratégicas e a compreensão do contexto dinâmico que levaram a essa vitória dêem à Gemini uma grande vantagem sobre a capacidade de raciocínio da GPT-4.
O AlphaGo melhorou no Go ao jogar contra si próprio. O Gemini poderia utilizar um jogo autónomo semelhante para aprender com as suas próprias interacções, e não apenas com a interação dos utilizadores.
Os dados são a verdadeira diferença
Provavelmente, a vantagem mais significativa da Google reside no grande volume de dados de que dispõe para treinar o Gemini.
A OpenAI recolheu todos os dados da Internet que pôde, mas está agora a lutar contra a acções judiciais inevitáveis e está a ver a sua GPTBot cada vez mais bloqueado.
É provável que a Google tenha feito a sua quota-parte de recolha de dados "arriscados", mas possui enormes quantidades de dados proprietários. Não é claro o que foi incluído no conjunto de dados de treino do Gemini, mas poderia facilmente incluir dados do YouTube, Google Books, Google Scholar e do seu enorme índice de pesquisa.
Esperemos que não tenhamos de esperar até dezembro para obter algumas comparações reais de benchmarking para ver se o Gemini é realmente melhor do que o GPT-4. Poderá a OpenAI estar a adiar o lançamento do GPT-5 apenas o tempo suficiente para superar o Gemini após o seu lançamento?