A Google joga outra carta da IA sob a forma do Gemini 1.5 Pro

15 de fevereiro de 2024

IA Gemini

A Google jogou outra cartada com o Gemini 1.5 Pro, um modelo que se baseia nas realizações do seu antecessor, o Gemini 1.0. 

Com o Google Bard morto e enterrado, a família Gemini parece estar a multiplicar-se mais rapidamente do que a comunidade de IA consegue acompanhar.

Agora surge o Gemini 1.5 Pro, que é mais eficiente do que o anterior modelo principal da Google, o Gemini Ultra.

De facto, o Gemini 1.5 Pro supera o Ultra numa série de testes de referência, mas necessitaremos de mais informações para uma comparação exaustiva.

Modelos Gemini de referência
Modelos Gemini de referência

O Gemini 1.5 Pro oferece uma nova arquitetura Mixture-of-Experts (MoE) e supera o Gemini Pro (agora denominado Gemini 1.0 Pro) em 87% de benchmarks. 

Está disponível através da nova plataforma de IA paga da Google denominada Google One AI Premium, usurpando o Gemini Pro apesar de a Google apenas actualizando-o há algumas semanas.

Então, qual é o objetivo de um modelo que bate o 1.0 Pro mas é semelhante ao Ultra?

Para além da maior eficiência informática em relação ao Ultra e do desempenho superior em algumas áreas, a principal caraterística do Gemini 1.5 Pro é a sua 128.000 tokens de janela de contexto, expansível até 1 milhão de tokens. Isso supera o GPT-4 Turbo em 128.000 e o Claude 2.1 em 200.000. 

Para contextualizar uma janela de 1 milhão de contextos, esta traduz-se, grosso modo, em 700 000 palavras, 11 horas de áudio ou 1 hora de vídeo.

Isto permite o processamento e a interpretação de conjuntos de dados colossais, incluindo livros inteiros. No entanto, a Google sublinha que o Gemini 1.5 Pro continua a ser um modelo multimodal de "dimensão média" concebido para ser escalável e versátil. 

O Gemini 1.5 é então um assassino do GPT-4? Certamente que nãoot em termos de desempenho de força bruta, mas deverá ultrapassá-lo em tarefas específicas com grandes quantidades de informação, como a Google fez questão de demonstrar. 

Aplicações e capacidades do Gemini

Tal como os seus antecessores, as capacidades do Gemini 1.5 Pro estendem-se a várias modalidades, desde texto a vídeo e áudio.

A sua janela de contexto alargada permite que o modelo processe e raciocine sobre grandes quantidades de informação, como documentos extensos, bases de código extensas ou horas de conteúdo de vídeo. 

Numa demonstração da Google, o Gemini 1.5 Pro consegue compreender e identificar pormenores nas transcrições de 402 páginas da missão da Apollo 11 à Lua. 

Outro desafio consistia em localizar cenas específicas do filme "Sherlock Jr." de Buster Keaton utilizando descrições e esboços, o que 1,5 Pro conseguiu, apesar de demorar até um minuto em alguns casos. 

Noutra tarefa, o Gemini 1.5 Pro foi desafiado a traduzir inglês para a complexa língua guineense, Kalamang, e vice-versa.

Isto foi especialmente assustador porque Kalamang não está representada nos dados de treino do modelo.

O Google forneceu ao modelo materiais de instrução no seu contexto de entrada, incluindo cerca de 500 páginas de gramática de referência, uma lista de palavras bilingue (dicionário) com cerca de 2000 entradas e um conjunto de cerca de 400 frases paralelas.

Estes materiais incluíam cerca de 250 mil fichas, que se enquadram na janela de contexto alargada do modelo.

Apenas com os materiais de instrução fornecidos, o Gemini 1.5 Pro traduziu com sucesso frases entre o inglês e o Kalamang. Esta experiência demonstrou a capacidade do modelo para absorver e aplicar novas regras linguísticas e vocabulário do contexto, aprendendo efetivamente uma nova língua na hora.

A qualidade das traduções produzidas pelo Gemini 1.5 Pro foi avaliada por peritos humanos que compararam o desempenho do modelo com o de um aprendiz de línguas humano, tendo em conta o mesmo conjunto de materiais.

Outra demonstração mediu o desempenho do modelo na análise e resolução de problemas com mais de 100.000 linhas de código.

Informações do documento de investigação do Gemini 1.5 Pro

A Google publicou um documento de investigação sobre o Gemini 1.5, intitulado "Gemini 1.5: Desbloquear a compreensão multimodal através de milhões de símbolos de contexto." 

É evidente que a Google pretende promover a janela de contexto alargada do Gemini 1.5 Pro, que atualmente domina outros LLM na parte superior dos seus 1 milhão de tokens.

O Gemini 1.5 Pro alcança uma recuperação quase perfeita em tarefas de recuperação de textos longos em diferentes modalidades e estabelece novos padrões em QA de documentos longos, QA de vídeos longos e ASR de textos longos.

O documento descreve em pormenor o desempenho do Gemini 1.5 Pro em várias capacidades essenciais, comparando-o com os modelos Gemini 1.0:

  • Melhorias na taxa de vitórias: O Gemini 1.5 Pro apresenta uma taxa de vitória de 87,1% em relação ao Gemini 1.0 Pro e uma taxa de vitória de 54,8% em relação ao Gemini 1.0 Ultra em vários testes de referência, demonstrando as suas melhorias
  • Desempenho em domínios específicos: Em tarefas relacionadas com texto, o modelo atinge uma taxa de vitória de 100% contra o Gemini 1.0 Pro e uma taxa de vitória de 77% contra o Gemini 1.0 Ultra. Nas tarefas relacionadas com a visão, as taxas de vitória são de 77% e 46% contra o Gemini 1.0 Pro e Ultra, respetivamente. As tarefas de áudio apresentam uma taxa de vitória de 60% contra o Gemini 1.0 Pro e uma taxa de vitória de 20% contra o Gemini 1.0 Ultra.

No geral, o Gemini 1.5 Pro é um bom Modelo de nível GPT-3.5 com uma janela de contexto mais longa do que a dos concorrentes. 

Será isso suficiente para afastar as pessoas do ChatGPT? A verdade é que, a não ser que tenha livros inteiros para analisar, os benefícios podem ser escassos ou inexistentes. 

Como utilizar o Gemini 1.5 Pro

O Gemini 1.5 está atualmente disponível numa pré-visualização limitada para programadores e clientes empresariais.

As perguntas sobre preços e acessibilidade a longo prazo ainda não foram respondidas. A Google deu a entender que os níveis de preços variarão consoante o tamanho da janela de contexto, desde os 128 000 tokens normais até aos 1 milhão completos. 

O custo exato continua a ser desconhecido, o que suscita especulações sobre o potencial investimento necessário para tirar partido desta janela de contexto avançada.

Alguns salientaram que, quando o Gemini 1.5 Pro estiver disponível para as massas, a concorrência já terá avançado. 

A Google distingue-se por um produto que apenas um número restrito de utilizadores iniciais pode experimentar. Isso parece-me um pouco alienante.

A família dos Gémeos: acessível ou esotérica?

No espaço de cerca de dois ou três meses, a Google criou e matou a Bard, trocando-o pelo Gemini Pro e lançando o Ultra, o Nano e agora o Gemini 1.5 Pro. 

Isto implicou renomear o Gemini Pro (que era apenas Gemini?) para Gemini 1.0 Pro.

Como resultado deste esbanjamento de IA, Página de destino da DeepMind para a família Gemini é francamente complicada e cheia de gente. 

A OpenAI, em muitos aspectos, fez um truque de marketing inteligente ao manter os seus modelos sob a égide do 'ChatGPT' desde o início e ao manter o acesso mais ou menos limitado apenas ao GPT-3.5 gratuito e ao GPT-4 pago para os utilizadores que não são da API. 

A Gemini é a Google que está a apostar na IA generativa, mas poderá ficar atolada nas suas ofertas de produtos cada vez mais ambíguas.

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Calças de ganga Sam

Sam é um escritor de ciência e tecnologia que trabalhou em várias startups de IA. Quando não está a escrever, pode ser encontrado a ler revistas médicas ou a vasculhar caixas de discos de vinil.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições