A Google fez batota com o impressionante vídeo de demonstração do Gemini?

9 de dezembro de 2023

O vídeo da Google que mostrava as capacidades do seu novo modelo Gemini era absolutamente espantoso. Infelizmente, a verdade sobre a qualidade do Gemini e o que ele pode fazer fica aquém da propaganda.

Quando vimos pela primeira vez o vídeo de demonstração que mostrava o Gemini a interagir em tempo real com o apresentador, ficámos maravilhados. Estávamos tão entusiasmados que nos escaparam alguns avisos de isenção de responsabilidade no início e aceitámos o vídeo pelo seu valor nominal.

O texto nos primeiros segundos do vídeo diz: "Temos estado a captar imagens para o testar numa vasta gama de desafios, mostrando-lhe uma série de imagens e pedindo-lhe para raciocinar sobre o que vê".

O que realmente aconteceu nos bastidores é a causa do críticas que o Google recebeu e as questões éticas que levanta.

O Gemini não estava a ver um vídeo em direto do apresentador a desenhar um pato ou a mover copos. E também não estava a responder às instruções de voz que ouviu. O vídeo era uma apresentação de marketing estilizada de uma verdade mais simples.

Na realidade, o Gemini foi apresentado com imagens fixas e instruções de texto mais pormenorizadas do que as perguntas que ouvimos o apresentador fazer.

Um porta-voz da Google confirmou que as palavras que se ouvem no vídeo são "excertos reais das instruções utilizadas para produzir o resultado Gemini que se segue".

Ou seja, mensagens de texto detalhadas, imagens fixas e respostas de texto. O que a Google demonstrou de facto foi uma funcionalidade que o GPT-4 já tem há meses.

GPT-4 identificando o desenho do pato. Fonte: X / Ethan Mollick

Publicação no blogue do Google mostra as imagens fixas e os avisos de texto que foram efetivamente utilizados.

No exemplo do carro, o apresentador pergunta: "Com base na sua conceção, qual destes carros andaria mais depressa?"

A pergunta que foi utilizada foi: "Qual destes carros é mais aerodinâmico? O da esquerda ou o da direita? Explica porquê, utilizando detalhes visuais específicos".

E quando se recria a experiência no Bard, que a Gemini agora controla, nem sempre dá certo.

Bard escolhe o carro errado. Fonte: Bard

Queria mesmo acreditar que Gemini podia seguir a bola à medida que os três copos se moviam, mas infelizmente isso também não é verdade.

A publicação no blogue da Google mostra que foram necessários muitos avisos e explicações para a demonstração do baralhar de chávenas.

Instruções para baralhar a chávena. Fonte: Google

Não deixa de ser impressionante que um modelo de IA consiga fazer isto, mas não é o que nos foi vendido no vídeo.

É isso, Google?

Estamos apenas a especular, mas o mais provável é que a demonstração estivesse a mostrar os resultados obtidos pela Google utilizando o Gemini Ultra, que ainda não foi lançado.

Assim, quando o Gemini Ultra for eventualmente lançado, parece que será capaz de fazer o que o GPT-4 tem vindo a fazer há meses. As implicações não são grandes.

Será que estamos a atingir um limite máximo no que diz respeito às capacidades de IA? Porque, se as melhores mentes da IA estão a trabalhar na Google, então certamente estarão a impulsionar a inovação de ponta.

Ou será que a Google não só foi lenta a entrar na corrida, como também teve dificuldades em acompanhar os restantes? Os números de benchmark que a Google orgulhosamente exibiu mostram que o seu modelo, ainda por lançar, bate marginalmente o GPT-4 em alguns testes. Como é que se vai sair contra o GPT-5?

Ou talvez o departamento de marketing da Google tenha cometido um erro de julgamento com o seu vídeo, mas o Gemini Ultra continuará a ser melhor do que pensamos. A Google afirma que o Gemini é verdadeiramente multimodal e que compreende o vídeo, o que será verdadeiramente uma novidade para os LLM.

Ainda não vimos um LLM demonstrar a compreensão de vídeo, mas quando o fizermos valerá a pena ficarmos entusiasmados. Será o Gemini Ultra ou o GPT-5 que nos vai mostrar primeiro?

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Eugene van der Watt

Eugene vem de uma formação em engenharia eletrónica e adora tudo o que é tecnologia. Quando faz uma pausa no consumo de notícias sobre IA, pode encontrá-lo à mesa de snooker.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições