O evento I/O 2024 da Google arrancou na terça-feira com o anúncio de vários novos avanços em produtos de IA.
OpenAI pode ter tentado ultrapassar o Google com o libertação de GPT-4o na segunda-feira, mas a apresentação do Google I/O 2024 estava repleta de anúncios interessantes.
Eis um resumo dos principais avanços da IA, das novas ferramentas e dos protótipos que a Google está a experimentar.
Perguntar fotografias
O Google Fotos, o serviço de armazenamento e partilha de fotografias da Google, vai poder ser pesquisado através de consultas em linguagem natural com o Ask Photos. Os utilizadores já podem pesquisar itens específicos ou pessoas nas suas fotografias, mas o Ask Photos leva isto para o nível seguinte.
O CEO da Google, Sundar Pichai, mostrou como se pode utilizar o Ask Photos para recordar o número da matrícula do carro ou para dar feedback sobre a evolução das capacidades de natação de uma criança.
Alimentado por GeminiO Ask Photos compreende o contexto das imagens e pode extrair texto, criar compilações de destaques ou responder a consultas sobre imagens armazenadas.
Com mais de 6 mil milhões de imagens carregadas diariamente no Google Fotos, o Pergunte às Fotos precisará de uma enorme janela de contexto para ser útil.
E se as suas fotografias pudessem responder às suas perguntas? 🤔 Em #GoogleIO Hoje, anunciámos o Pergunte às fotografias, uma nova funcionalidade do Google Fotos que faz exatamente isso. Pergunte às fotografias é a nova forma de pesquisar as suas fotografias com a ajuda de Gemini. #AskFotos https://t.co/KhPeCauFAf pic.twitter.com/3MZg55SgdD
- Google Fotos (@googlephotos) 14 de maio de 2024
Gemini 1.5 Pro
Pichai anunciou que Gemini 1.5 Pro com uma janela de contexto de fichas de 1M estará disponível para Gemini Utilizadores avançados. Isto equivale a cerca de 1.500 páginas de texto, horas de áudio e uma hora completa de vídeo.
Os programadores podem inscrever-se numa lista de espera para experimentar Gemini 1.5 Pro com uma impressionante janela de contexto de 2M que em breve estará disponível para todos. Pichai afirma que este é o próximo passo na viagem da Google em direção ao objetivo final do contexto infinito.
Gemini O 1.5 Pro também teve um aumento de desempenho na tradução, raciocínio e codificação e será verdadeiramente multimodal com a capacidade de analisar vídeo e áudio carregados.
"Acertou em cheio."
"Isto muda tudo."
"É uma experiência alucinante".
"Senti-me como se tivesse um superpoder."
"Isto vai ser espetacular."Ouça o que dizem os programadores que têm estado a experimentar Gemini 1.5 Pro com uma janela de contexto de 1 milhão de tokens. #GoogleIO pic.twitter.com/odOfI4lvOL
- Google (@Google) 14 de maio de 2024
Espaço de trabalho Google
O contexto alargado e as capacidades multimodais permitem Gemini para ser extremamente útil quando integrado no Google Workspace.
Os utilizadores podem utilizar consultas em linguagem natural para perguntar Gemini perguntas relacionadas com as suas mensagens de correio eletrónico. A demonstração deu o exemplo de um pai que pediu um resumo das mensagens de correio eletrónico recentes da escola do seu filho.
Gemini também poderá extrair destaques e responder a perguntas sobre reuniões do Google Meet com duração máxima de uma hora.
NotebookLM - Visão geral do áudio
A Google lançou Bloco de notasLM no ano passado. Permite aos utilizadores carregarem as suas próprias notas e documentos em que o NotebookLM se torna especialista.
Isto é extremamente útil como guia de investigação ou tutor e a Google demonstrou uma atualização experimental denominada Síntese de áudio.
O Audio Overview utiliza os documentos de origem de entrada e gera um debate áudio com base no conteúdo. Os utilizadores podem juntar-se à conversa e utilizar a voz para consultar o NotebookLM e orientar a discussão.
NotebookLM! Gosto muito deste projeto, o Projeto Arcades com IA. Com a multimodalidade do Gemini Pro 1.5, pode criar automaticamente discussões áudio do material de origem que adicionou às suas fontes. pic.twitter.com/IhhSfj8AqR
- Dieter Bohn (@backlon) 14 de maio de 2024
Ainda não se sabe quando é que o Audio Overview será lançado, mas poderá ser uma grande ajuda para quem quiser um tutor ou uma caixa de ressonância para resolver um problema.
A Google também anunciou o LearnLM, uma nova família de modelos baseados em Gemini e aperfeiçoado para a aprendizagem e a educação. A LearnLM irá alimentar o NotebookLM, o YouTube, a Pesquisa e outras ferramentas educativas para que sejam mais interactivas.
A demonstração foi muito impressionante, mas já parece que alguns dos erros cometidos pela Google com o seu original Gemini os vídeos de lançamento foram introduzidos neste evento.
A demonstração do notebooklm não é em tempo real. Gostava que tivessem definido essa expetativa sem a enterrarem numa nota de rodapé com o tipo de letra mais pequeno possível. pic.twitter.com/tGN5i3fsVD
- Delip Rao e/σ (@deliprao) 14 de maio de 2024
Agentes de IA e o Projeto Astra
Pichai afirma que os agentes de IA alimentados por Gemini em breve poderão tratar das nossas tarefas quotidianas. A Google está a criar protótipos de agentes que poderão funcionar em várias plataformas e browsers.
O exemplo que Pichai deu foi o de um utilizador a dar instruções Gemini para devolver um par de sapatos e depois ter o agente a trabalhar através de vários e-mails para encontrar os detalhes relevantes, registar a devolução na loja online e marcar a recolha com um estafeta.
Demis Hassabis apresentou o Projeto Astra, o protótipo do assistente de IA para conversação da Google. A demonstração das suas capacidades multimodais deu um vislumbre do futuro, em que uma IA responde a perguntas em tempo real com base em vídeos em direto e recorda pormenores de vídeos anteriores.
Hassabis afirmou que algumas destas funcionalidades serão lançadas ainda este ano.
Há muito tempo que trabalhamos para criar um agente de IA universal que possa ser verdadeiramente útil na vida quotidiana. Hoje, na #GoogleIO mostrámos os nossos últimos progressos nesse sentido: O Projeto Astra. Aqui está um vídeo do nosso protótipo, capturado em tempo real. pic.twitter.com/TSGDJZVslg
- Demis Hassabis (@demishassabis) 14 de maio de 2024
IA generativa
A Google deu-nos a conhecer as ferramentas de IA geradora de imagem, música e vídeo em que tem estado a trabalhar.
A Google apresentou o Imagen 3, o seu gerador de imagens mais avançado. Segundo consta, responde com mais precisão aos pormenores das mensagens e produz imagens mais realistas.
Hassabis afirmou que o Imagen 3 é o "melhor modelo da Google até à data para a apresentação de texto, o que tem sido um desafio para os modelos de geração de imagens".
Hoje apresentamos o Imagen 3, DeepMind?ref_src=twsrc%5Etfw”>@GoogleDeepMindo modelo de geração de imagens mais capaz de sempre. Compreende os prompts da forma como as pessoas escrevem, cria imagens mais fotorrealistas e é o nosso melhor modelo para renderizar texto. #GoogleIO pic.twitter.com/6bjidsz6pJ
- Google (@Google) 14 de maio de 2024
O Music AI Sandbox é um gerador de música com IA concebido para ser uma ferramenta profissional de criação de música colaborativa, em vez de um gerador de faixas completo. Este parece ser um ótimo exemplo de como a IA pode ser utilizada para criar boa música com um ser humano a conduzir o processo criativo.
O Veo é o gerador de vídeo da Google que transforma texto, imagem ou instruções de vídeo em clips de um minuto a 1080p. Também permite a utilização de comandos de texto para fazer edições de vídeo. Será o Veo tão bom como o Sora?
A Google vai lançar a sua marca de água digital SynthID para texto, áudio, imagens e vídeo.
Trillium
Todas estas novas capacidades multimodais necessitam de uma grande capacidade de processamento para treinar os modelos. Pichai revelou o Trillium, a sexta iteração das suas unidades de processamento de tensores (TPU). O Trillium oferece mais de 4 vezes a computação da geração anterior de TPUs.
O Trillium estará disponível para os clientes de computação em nuvem da Google no final deste ano e tornará a tecnologia NVIDIA GPUs Blackwell disponível no início de 2025.
Pesquisa de IA
A Google irá integrar Gemini na sua plataforma de pesquisa, à medida que avança para a utilização de IA generativa na resposta a consultas.
Com a visão geral da IA, uma consulta de pesquisa resulta numa resposta abrangente coligida a partir de várias fontes online. Isto torna a Pesquisa Google mais um assistente de pesquisa do que simplesmente encontrar um sítio Web que possa conter a resposta.
Gemini permite que a Pesquisa Google utilize o raciocínio em várias etapas para decompor perguntas complexas com várias partes e devolver as informações mais relevantes de várias fontes.
Geminipermitirá em breve que os utilizadores utilizem um vídeo para consultar a Pesquisa Google.
Isto será ótimo para os utilizadores da Pesquisa Google, mas provavelmente resultará em muito menos tráfego para os sites a partir dos quais o Google obtém a informação.
Esta é a Pesquisa no Gemini era. #GoogleIO pic.twitter.com/JxldNjbqyn
- Google (@Google) 14 de maio de 2024
E também poderá fazer perguntas com vídeo, diretamente na Pesquisa. Em breve. #GoogleIO pic.twitter.com/zFVu8yOWI1
- Google (@Google) 14 de maio de 2024
Gemini 1.5 Flash
A Google anunciou um modelo leve, mais barato e rápido chamado Gemini 1.5 Flash. A Google afirma que o modelo está "optimizado para tarefas mais restritas ou de alta frequência, em que a velocidade do tempo de resposta do modelo é mais importante".
Gemini 1.5 Flash custará $0.35 por milhão de tokens, muito menos do que os $7 que teria de pagar para utilizar Gemini 1.5 Pro.
Cada um destes avanços e novos produtos merece uma publicação própria. Publicaremos actualizações à medida que mais informações estiverem disponíveis ou quando os experimentarmos.