Google I/O 2024 - Eis os destaques da IA que a Google revelou

15 de maio de 2024

  • No evento Google I/O 2024 foram anunciados novos lançamentos e protótipos de produtos de IA da Google
  • O Gemini Pro 1.5 receberá uma atualização de 2 milhões de contextos e será integrado no Google Workspaces
  • Foram apresentadas várias ferramentas com capacidades multimodais e novos geradores de imagem, música e vídeo

O evento I/O 2024 da Google arrancou na terça-feira com o anúncio de vários novos avanços em produtos de IA.

OpenAI pode ter tentado ultrapassar o Google com o libertação de GPT-4o na segunda-feira, mas a apresentação do Google I/O 2024 estava repleta de anúncios interessantes.

Eis um resumo dos principais avanços da IA, das novas ferramentas e dos protótipos que a Google está a experimentar.

Perguntar fotografias

O Google Fotos, o serviço de armazenamento e partilha de fotografias da Google, vai poder ser pesquisado através de consultas em linguagem natural com o Ask Photos. Os utilizadores já podem pesquisar itens específicos ou pessoas nas suas fotografias, mas o Ask Photos leva isto para o nível seguinte.

O CEO da Google, Sundar Pichai, mostrou como se pode utilizar o Ask Photos para recordar o número da matrícula do carro ou para dar feedback sobre a evolução das capacidades de natação de uma criança.

Alimentado por GeminiO Ask Photos compreende o contexto das imagens e pode extrair texto, criar compilações de destaques ou responder a consultas sobre imagens armazenadas.

Com mais de 6 mil milhões de imagens carregadas diariamente no Google Fotos, o Pergunte às Fotos precisará de uma enorme janela de contexto para ser útil.

Gemini 1.5 Pro

Pichai anunciou que Gemini 1.5 Pro com uma janela de contexto de fichas de 1M estará disponível para Gemini Utilizadores avançados. Isto equivale a cerca de 1.500 páginas de texto, horas de áudio e uma hora completa de vídeo.

Os programadores podem inscrever-se numa lista de espera para experimentar Gemini 1.5 Pro com uma impressionante janela de contexto de 2M que em breve estará disponível para todos. Pichai afirma que este é o próximo passo na viagem da Google em direção ao objetivo final do contexto infinito.

Gemini O 1.5 Pro também teve um aumento de desempenho na tradução, raciocínio e codificação e será verdadeiramente multimodal com a capacidade de analisar vídeo e áudio carregados.

Espaço de trabalho Google

O contexto alargado e as capacidades multimodais permitem Gemini para ser extremamente útil quando integrado no Google Workspace.

Os utilizadores podem utilizar consultas em linguagem natural para perguntar Gemini perguntas relacionadas com as suas mensagens de correio eletrónico. A demonstração deu o exemplo de um pai que pediu um resumo das mensagens de correio eletrónico recentes da escola do seu filho.

Gemini também poderá extrair destaques e responder a perguntas sobre reuniões do Google Meet com duração máxima de uma hora.

NotebookLM - Visão geral do áudio

A Google lançou Bloco de notasLM no ano passado. Permite aos utilizadores carregarem as suas próprias notas e documentos em que o NotebookLM se torna especialista.

Isto é extremamente útil como guia de investigação ou tutor e a Google demonstrou uma atualização experimental denominada Síntese de áudio.

O Audio Overview utiliza os documentos de origem de entrada e gera um debate áudio com base no conteúdo. Os utilizadores podem juntar-se à conversa e utilizar a voz para consultar o NotebookLM e orientar a discussão.

Ainda não se sabe quando é que o Audio Overview será lançado, mas poderá ser uma grande ajuda para quem quiser um tutor ou uma caixa de ressonância para resolver um problema.

A Google também anunciou o LearnLM, uma nova família de modelos baseados em Gemini e aperfeiçoado para a aprendizagem e a educação. A LearnLM irá alimentar o NotebookLM, o YouTube, a Pesquisa e outras ferramentas educativas para que sejam mais interactivas.

A demonstração foi muito impressionante, mas já parece que alguns dos erros cometidos pela Google com o seu original Gemini os vídeos de lançamento foram introduzidos neste evento.

Agentes de IA e o Projeto Astra

Pichai afirma que os agentes de IA alimentados por Gemini em breve poderão tratar das nossas tarefas quotidianas. A Google está a criar protótipos de agentes que poderão funcionar em várias plataformas e browsers.

O exemplo que Pichai deu foi o de um utilizador a dar instruções Gemini para devolver um par de sapatos e depois ter o agente a trabalhar através de vários e-mails para encontrar os detalhes relevantes, registar a devolução na loja online e marcar a recolha com um estafeta.

Demis Hassabis apresentou o Projeto Astra, o protótipo do assistente de IA para conversação da Google. A demonstração das suas capacidades multimodais deu um vislumbre do futuro, em que uma IA responde a perguntas em tempo real com base em vídeos em direto e recorda pormenores de vídeos anteriores.

Hassabis afirmou que algumas destas funcionalidades serão lançadas ainda este ano.

IA generativa

A Google deu-nos a conhecer as ferramentas de IA geradora de imagem, música e vídeo em que tem estado a trabalhar.

A Google apresentou o Imagen 3, o seu gerador de imagens mais avançado. Segundo consta, responde com mais precisão aos pormenores das mensagens e produz imagens mais realistas.

Hassabis afirmou que o Imagen 3 é o "melhor modelo da Google até à data para a apresentação de texto, o que tem sido um desafio para os modelos de geração de imagens".

O Music AI Sandbox é um gerador de música com IA concebido para ser uma ferramenta profissional de criação de música colaborativa, em vez de um gerador de faixas completo. Este parece ser um ótimo exemplo de como a IA pode ser utilizada para criar boa música com um ser humano a conduzir o processo criativo.

O Veo é o gerador de vídeo da Google que transforma texto, imagem ou instruções de vídeo em clips de um minuto a 1080p. Também permite a utilização de comandos de texto para fazer edições de vídeo. Será o Veo tão bom como o Sora?

A Google vai lançar a sua marca de água digital SynthID para texto, áudio, imagens e vídeo.

 

Trillium

Todas estas novas capacidades multimodais necessitam de uma grande capacidade de processamento para treinar os modelos. Pichai revelou o Trillium, a sexta iteração das suas unidades de processamento de tensores (TPU). O Trillium oferece mais de 4 vezes a computação da geração anterior de TPUs.

O Trillium estará disponível para os clientes de computação em nuvem da Google no final deste ano e tornará a tecnologia NVIDIA GPUs Blackwell disponível no início de 2025.

Pesquisa de IA

A Google irá integrar Gemini na sua plataforma de pesquisa, à medida que avança para a utilização de IA generativa na resposta a consultas.

Com a visão geral da IA, uma consulta de pesquisa resulta numa resposta abrangente coligida a partir de várias fontes online. Isto torna a Pesquisa Google mais um assistente de pesquisa do que simplesmente encontrar um sítio Web que possa conter a resposta.

Gemini permite que a Pesquisa Google utilize o raciocínio em várias etapas para decompor perguntas complexas com várias partes e devolver as informações mais relevantes de várias fontes.

Geminipermitirá em breve que os utilizadores utilizem um vídeo para consultar a Pesquisa Google.

Isto será ótimo para os utilizadores da Pesquisa Google, mas provavelmente resultará em muito menos tráfego para os sites a partir dos quais o Google obtém a informação.

Gemini 1.5 Flash

A Google anunciou um modelo leve, mais barato e rápido chamado Gemini 1.5 Flash. A Google afirma que o modelo está "optimizado para tarefas mais restritas ou de alta frequência, em que a velocidade do tempo de resposta do modelo é mais importante".

Gemini 1.5 Flash custará $0.35 por milhão de tokens, muito menos do que os $7 que teria de pagar para utilizar Gemini 1.5 Pro.

Cada um destes avanços e novos produtos merece uma publicação própria. Publicaremos actualizações à medida que mais informações estiverem disponíveis ou quando os experimentarmos.

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Eugene van der Watt

Eugene vem de uma formação em engenharia eletrónica e adora tudo o que é tecnologia. Quando faz uma pausa no consumo de notícias sobre IA, pode encontrá-lo à mesa de snooker.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições