A Google está a lançar o desafio com o Gemini, o seu novo modelo de linguagem de grande dimensão (LLM).
Desenvolvido principalmente pela Google DeepMind, o projeto Gemini assinala um confronto iminente com o ChatGPT da OpenAI.
A informação informou que a Google concedeu acesso antecipado ao Gemini a um grupo selecionado de programadores, o que implica que uma versão beta está iminente.
Uma vez que a Google combina os seus recursos substanciais com os laboratórios de investigação Brain e DeepMind, o impacto potencial do Gemini na indústria da IA poderá ser enorme.
Enquanto a OpenAI surgiu na cena da IA e assumiu o controlo dos utilizadores públicos com o ChatGPT, a Google é apoiada por décadas de investigação em IA e possui consideráveis conjuntos de dados próprios.
O CEO da Google, Sundar Pichai, revelou o Gemini durante a conferência de programadores Google I/O em maio de 2023. Afirmou que o Gemini foi concebido "desde o início para ser multimodal", combinando os pontos fortes do sistema AlphaGo da DeepMind com poderosas capacidades de modelação de linguagem.
Demis Hassabis, diretor executivo da DeepMind, acrescentou mais contexto, afirmando que o Gemini não é um modelo único, mas sim uma "série de modelos" e que provavelmente trabalhará com texto, imagens e possivelmente até com voz e áudio.
Isto é semelhante à direção do Google Bard, que incorpora a funcionalidade de imagem, cortesia do Google Lens.
As futuras melhorias poderão incluir funcionalidades como "memória e planeamento que poderão permitir tarefas que exijam raciocínio", de acordo com Pichai.
Jeffrey Dean, cientista-chefe da Google, revelou que o Gemini utilizará a nova infraestrutura de IA da Google, Pathways, para aumentar a sua formação em diversos conjuntos de dados.
Dean deu a entender que o sistema poderia potencialmente exceder a dimensão do GPT-3 da OpenAI, que contém mais de 175 mil milhões de parâmetros - mas isso significaria que o Gemini continuaria uma geração atrás do GPT-4.
No entanto, a contagem de parâmetros não é tudo e o Gemini pode distinguir-se de outros LLM de outras formas.
Por exemplo, para além de trabalhar com vários tipos de dados, Hassabis indicou que o Gemini podia fazer a validação cruzada das informações com a Pesquisa Google.
Reação da indústria
Hassabis revelou que o Gemini está a mostrar "resultados iniciais muito promissores" num relatório de setembro entrevista à Time.
Um relatório de Semi Análise afirma que o Gemini excede os 430 mil milhões de parâmetros, significativamente mais elevado do que a estimativa de 200 mil milhões do GPT-3. A contagem de parâmetros da GPT-4 é desconhecida, embora seja relatada como sendo de cerca de 1 trilião, de acordo com um punhado de análises.
O post da Semi Analysis também afirma que o Gemini irá "esmagar" os flops de pré-treino do GPT-4 em 5x, com planos para o superar em 20x. Embora especulativo, isto significaria que o Gemini é computacionalmente consideravelmente mais poderoso do que o GPT-4.
O post diz: "Se o Google tem estômago para colocar esses modelos publicamente sem neutralizar sua criatividade ou seu modelo de negócios existente é uma discussão diferente".
Como disse Sundar Pichai, os chatbots actuais "parecerão triviais" em comparação com os actuais dentro de alguns anos.
No entanto, ainda não se sabe se o Gemini conseguirá derrubar o domínio do GPT-4.