A Google lança a sua inovadora família Gemini de modelos multimodais

6 de dezembro de 2023
Google Med-PaLM 2

A Google lançou a sua família Gemini de modelos de IA multimodais, uma jogada dramática num sector ainda a ressentir-se dos acontecimentos da OpenAI.

Gemini é uma família de modelos multimodais capaz de processar e compreender uma combinação de texto, imagens, áudio e vídeo.

Sundar Pichai, Diretor Executivo da Google, e Demis Hassabis, Diretor Executivo da Google DeepMind, expressam grandes expectativas em relação ao Gemini. A Google planeia integrá-lo nos seus vastos produtos e serviços, incluindo a pesquisa, o Maps e o Chrome.

O Gemini apresenta uma multimodalidade abrangente, processando e interagindo com texto, imagens, vídeo e áudio. Embora estejamos habituados ao processamento de texto e imagem, o áudio e o vídeo abrem novos caminhos, oferecendo novas e excitantes formas de lidar com os rich media.

Hassabis observa que "estes modelos compreendem melhor o mundo que os rodeia".

Pichai sublinhou a ligação do modelo aos produtos e serviços Google, afirmando: "Uma das coisas poderosas deste momento é o facto de se poder trabalhar numa tecnologia subjacente e melhorá-la, o que se reflecte imediatamente nos nossos produtos."

Os gémeos assumem três formas diferentes, que são:

  • Gemini Nano: Uma versão mais leve adaptada aos dispositivos Android, que permite funcionalidades offline e nativas.
  • Gemini Pro: Uma versão mais avançada, destinada a alimentar vários serviços de IA da Google, incluindo o Bard.
  • Gemini Ultra: A iteração mais poderosa, concebida principalmente para centros de dados e aplicações empresariais, com lançamento previsto para o próximo ano.

Em termos de desempenho, a Google afirma que o Gemini supera o GPT-4 em 30 dos 32 testes de referência, destacando-se particularmente na compreensão e interação com vídeo e áudio. Este desempenho é atribuído à conceção do Gemini como um modelo multissensorial desde o início.


Além disso, a Google fez questão de realçar a eficiência do Gemini.

Treinada nas próprias unidades de processamento de tensores (TPU) da Google, é mais rápida e mais económica do que os modelos anteriores. Juntamente com o Gemini, a Google está a lançar o TPU v5p para centros de dados, melhorando a eficiência da execução de modelos em grande escala.

Será o Gemini o assassino do ChatGPT?

A Google está claramente entusiasmada com o Gemini. No início do ano, um 'fuga' por Semi Análise sugeriu que a Gemini poderia arrasar a concorrência, vendo a Google passar de um membro periférico da indústria da IA generativa para a personagem principal à frente da OpenAI.

Para além da sua multimodalidade, o Gemini é, alegadamente, o primeiro modelo a superar os especialistas humanos no teste de referência MMLU (massive multitask language understanding), que testa o conhecimento do mundo e as capacidades de resolução de problemas em 57 disciplinas, como matemática, física, história, direito, medicina e ética.

 

Pichai afirma que o lançamento do Gemini está a anunciar uma "nova era" na IA, salientando a forma como o Gemini irá beneficiar do vasto catálogo de produtos da Google.

A integração dos motores de busca é particularmente interessante, uma vez que A Google domina este espaço e tem ao seu alcance as vantagens do índice de pesquisa mais completo do mundo.

O lançamento do Gemini coloca a Google firmemente na atual corrida à IA, e as pessoas vão fazer tudo para o testar contra o GPT-4.

Testes e análises de benchmarks Gemini

Num publicação no blogueNa semana passada, a Google publicou resultados de testes de referência que mostram como o Gemini Ultra supera o GPT-4 na maioria dos testes. Também possui capacidades de codificação avançadas, com um desempenho notável em testes de referência de codificação como o HumanEval e o Natural2Code.

 

Aqui estão os dados de referência. Atenção que estas medidas utilizam a versão Gemini Ultra ainda não lançada. O Gemini não pode ser considerado um assassino do ChatGPT até ao próximo ano. E pode apostar que a OpenAI vai tentar neutralizar o Gemini o mais rapidamente possível.

Desempenho de referência de texto/NLP

Conhecimentos gerais:

  • MMLU (Massive Multitask Language Understanding):
    • Gemini Ultra: 90.0% (Cadeia de pensamento com 32 exemplos)
    • GPT-4: 86,4% (5 tiros, reportado)

Raciocínio:

  • Big-Bench Hard (conjunto diversificado de tarefas exigentes que requerem raciocínio em várias etapas):
    • Gemini Ultra: 83,6% (3 tiros)
    • GPT-4: 83.1% (3 tiros, API)
  • DROP (Compreensão da Leitura, Pontuação F1):
    • Gemini Ultra: 82,4 (disparos variáveis)
    • GPT-4: 80,9 (3 tiros, relatado)
  • HellaSwag (Raciocínio de senso comum para tarefas quotidianas):
    • Gemini Ultra: 87,8% (10 disparos)
    • GPT-4: 95,3% (10 tentativas, comunicado)

Matemática:

  • GSM8K (Manipulações aritméticas básicas, incluindo problemas de matemática do ensino básico):
    • Gemini Ultra: 94,4% (maioria a 32 exemplos)
    • GPT-4: 92.0% (Cadeia de Pensamento de 5 disparos, relatado)
  • MATEMÁTICA (Problemas de matemática desafiantes, incluindo álgebra, geometria, pré-cálculo e outros):
    • Gemini Ultra: 53.2% (4 tiros)
    • GPT-4: 52,9% (4 tiros, API)

Código:

  • HumanEval (geração de código Python):
    • Gemini Ultra: 74,4% (0 disparos, teste interno)
    • GPT-4: 67,0% (0 tiros, comunicado)
  • Natural2Code (geração de código Python, novo conjunto de dados retido, semelhante ao HumanEval, não divulgado na Web):
    • Gemini Ultra: 74,9% (0 tiros)
    • GPT-4: 73,9% (0-tiro, API)

Desempenho multimodal de referência

As capacidades multimodais do modelo de IA Gemini da Google são também comparadas com o GPT-4V da OpenAI.

Compreensão e processamento de imagens:

  • MMMU (Multi-discipline College-level Reasoning Problems):
    • Gemini Ultra: 59,4% (passagem de 0 disparos@1, apenas píxeis)
    • GPT-4V: 56,8% (passagem de 0 disparos@1)
  • VQAv2 (Compreensão Natural de Imagens):
    • Gemini Ultra: 77,8% (0 disparos, apenas píxeis)
    • GPT-4V: 77.2% (0-tiro)
  • TextVQA (OCR em imagens naturais):
    • Gemini Ultra: 82,3% (0 disparos, apenas píxeis)
    • GPT-4V: 78.0% (0-shot)
  • DocVQA (Compreensão de documentos):
    • Gemini Ultra: 90,9% (0 disparos, apenas píxeis)
    • GPT-4V: 88,4% (0-shot, apenas píxeis)
  • Infographic VQA (Compreensão de Infográficos):
    • Gemini Ultra: 80.3% (0 disparos, apenas píxeis)
    • GPT-4V: 75.1% (0-shot, apenas pixel)
  • MathVista (Raciocínio matemático em contextos visuais):
    • Gemini Ultra: 53.0% (0 disparos, apenas píxeis)
    • GPT-4V: 49,9% (0-tiro)

Processamento de vídeo:

  • VATEX (legendagem de vídeo em inglês, pontuação do CIDEr):
    • Gemini Ultra: 62,7 (4 tiros)
    • DeepMind Flamingo: 56.0 (4 tentativas)
  • Teste de perceção MCQA (Video Question Answering):
    • Gemini Ultra: 54,7% (0 tiros)
    • SeViLA: 46.3% (0-tiro)

Processamento de áudio:

  • CoVoST 2 (tradução automática do discurso, 21 línguas, pontuação BLEU):
    • Gemini Pro: 40,1
    • Whisper v2: 29,1
  • FLEURS (Reconhecimento automático da fala, 62 línguas, taxa de erro de palavras):
    • Gemini Pro: 7,6% (quanto mais baixo, melhor)
    • Whisper v3: 17.6%

O compromisso ético da Google

Num publicação no blogueA Google sublinhou o seu empenhamento em práticas de IA responsáveis e éticas.

De acordo com a Google, o Gemini foi submetido a testes mais rigorosos do que qualquer outra IA anterior da Google, avaliando factores como a parcialidade, a toxicidade, as ameaças à cibersegurança e o potencial de utilização indevida. As técnicas contraditórias ajudaram a detetar problemas numa fase inicial. Em seguida, especialistas externos fizeram testes de stress e "red-team" aos modelos para identificar outros pontos cegos.

A Google afirma que a responsabilidade e a segurança continuarão a ser prioridades no meio do rápido progresso da IA. A empresa ajudou a lançar grupos do sector para estabelecer as melhores práticas, incluindo o MLCommons e o Secure AI Framework (SAIF).

A Google compromete-se a continuar a colaborar com investigadores, governos e organizações da sociedade civil a nível mundial.

Lançamento do Gemini Ultra

Por enquanto, a Google está a limitar o acesso à iteração do seu modelo mais potente, o Gemini Ultra, que será lançado no início do próximo ano.

Antes disso, alguns programadores e especialistas seleccionados irão experimentar o Ultra para dar feedback. O lançamento coincidirá com uma nova plataforma de modelos de IA de ponta, ou como a Google chama a uma "experiência", denominada Bard Advanced.

Gemini para programadores

A partir de 13 de dezembro, os programadores e os clientes empresariais terão acesso ao Gemini Pro através da API Gemini, disponível no Google AI Studio ou no Google Cloud Vertex AI.

Estúdio de IA da Google: O Google AI Studio é uma ferramenta fácil de utilizar e baseada na Web, concebida para ajudar os programadores a criar protótipos e lançar aplicações utilizando uma chave de API. Este recurso gratuito é ideal para quem se encontra nas fases iniciais do desenvolvimento de aplicações.

Vertex AI: Uma plataforma de IA mais abrangente, a Vertex AI oferece serviços totalmente geridos. Integra-se perfeitamente com o Google Cloud, oferecendo também segurança empresarial, privacidade e conformidade com os regulamentos de governação de dados.

Para além destas plataformas, os programadores Android poderão aceder ao Gemini Nano para tarefas no dispositivo. Ele estará disponível para integração via AICore. Esta nova capacidade do sistema está programada para estrear no Android 14, começando com os dispositivos Pixel 8 Pro.

Por enquanto, o Google é o maior

A OpenAI e a Google são diferentes num aspeto importante: A Google desenvolve internamente uma série de outras ferramentas e produtos, incluindo os que são utilizados por milhares de milhões de pessoas todos os dias.

Estamos, obviamente, a falar do Android, do Chrome, do Gmail, do Google Workplace e da Pesquisa Google.

A OpenAI, através da sua aliança com a Microsoft, tem oportunidades semelhantes através do Copilot, mas este ainda não arrancou.

E, para sermos honestos, a Google é provavelmente a empresa que domina todas estas categorias de produtos.

A Google tem-se mantido na corrida da IA, mas pode ter a certeza de que isto só irá alimentar o impulso da OpenAI em direção à GPT-5 e à AGI.

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Calças de ganga Sam

Sam é um escritor de ciência e tecnologia que trabalhou em várias startups de IA. Quando não está a escrever, pode ser encontrado a ler revistas médicas ou a vasculhar caixas de discos de vinil.

×
 
 

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI


 

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.



 
 

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições