Agentes de IA e Phi-3 multimodal revelados na Microsoft Build 2024

22 de maio de 2024

  • A Microsoft revelou o Team Copilot, uma ferramenta de produtividade colaborativa, na sua Build Developer Conference
  • O Copilot Studio pode criar agentes de IA para automatizar funções em todas as aplicações
  • O Phi-3 Vision traz as modalidades de imagem e áudio para a família de modelos de linguagem pequena Phi-3

Satya Nadella utilizou o seu discurso de abertura no primeiro dia da Build Developer Conference da Microsoft para anunciar alguns novos e empolgantes desenvolvimentos de IA que em breve estarão disponíveis para todos.

A Microsoft Build é uma conferência anual onde os programadores podem ver os últimos desenvolvimentos no Windows 11 e no Microsoft 365. No primeiro dia, foram reveladas algumas ferramentas interessantes de IA generativa.

Equipa Copilot

Em 2023, a Microsoft lançou o seu Copilot chatbot que fornece assistência inteligente em tempo real enquanto trabalha com ferramentas do Microsoft 365, como o Word, o Excel, o PowerPoint, o Outlook ou o Teams.

Nadella anunciou que estava a receber uma atualização significativa da IA com a Team Copilot. Equipa Copilot expande Copilot de um assistente pessoal individual para se tornar parte de uma equipa, melhorando a colaboração e a gestão de projectos.

Se estiver a trabalhar como parte de uma equipa que utiliza o Microsoft Teams, o Microsoft Loop ou o Microsoft Planner, o Team Copilot pode facilitar as reuniões gerindo a agenda e tomando notas. Pode realçar informações importantes, acompanhar itens de ação e abordar questões não resolvidas.

Pode até funcionar como gestor de projectos, atribuindo tarefas, controlando prazos e notificando os membros da equipa quando é necessário o seu contributo.

Agentes de copiloto personalizados

Microsoft Copilot O Studio permitir-lhe-á criar co-pilotos personalizados que actuam como agentes que trabalham de forma independente depois de lhes dar instruções.

Utilizando um comando de linguagem natural, basta descrever o que pretende que o agente faça e depois implementá-lo em várias plataformas.

A Microsoft diz que esses agentes podem:

  • Automatizar processos empresariais de longa duração
  • Raciocinar sobre acções e entradas do utilizador
  • Aproveitar a memória para introduzir o contexto
  • Aprender com base no feedback dos utilizadores
  • Registar os pedidos de exceção e pedir ajuda.

Um exemplo da utilidade que um agente como este poderia fornecer é um copiloto "anotador de encomendas" que, segundo a Microsoft, poderia "tratar do processo de cumprimento de encomendas de ponta a ponta - desde a receção da encomenda, passando pelo processamento da encomenda e fazendo recomendações inteligentes e substituições de artigos fora de stock, até à expedição para o cliente".

Esta funcionalidade permite-lhe criar empregados virtuais para tratar de tarefas simples como a monitorização de e-mails, a introdução de dados ou outras tarefas repetitivas sem aumentar o número de funcionários.

Visão Phi-3

A Microsoft adicionou um modelo multimodal de 4,2B parâmetros ao seu Phi-3 família de modelos de linguagem pequenos (SLMs). O Phi-3 Vision é um modelo de baixo custo e baixa latência que possui capacidades de áudio e visão e uma janela de contexto de 128k.

Estes modelos mais pequenos destinam-se a soluções no dispositivo em que as restrições de velocidade, custo, computação e conetividade à Internet tornam impraticáveis os modelos maiores. Os SLMs Phi-3 apresentam capacidades de raciocínio superiores e superam vários modelos maiores.

A possibilidade de raciocínio multimodal no dispositivo abre aplicações interessantes nos domínios da saúde, da educação e da agricultura, especialmente em zonas rurais sem ligação à Internet.

Pode experimentar Visão Phi-3 aqui. Faz um excelente trabalho de análise de imagens, extração de texto e até de tradução.

Resultados do benchmark Phi-3 Vision comparados com outros modelos de IA. Fonte: Microsoft

Colar avançado

O Windows 11 tem agora uma forma mais inteligente de copiar e colar. A nova funcionalidade Colar Avançado dá-lhe mais opções para os dados que copia para a área de transferência. Ao premir a tecla Windows + Shift + V, são apresentadas opções para colar como texto simples, como markdown ou como JSON.

Também pode escrever uma descrição da forma como pretende que o texto copiado seja processado antes de ser colado.

Precisará de um OpenAI Chave de API e créditos na sua conta para utilizar esta funcionalidade. Poupa-lhe o trabalho de colar o texto em ChatGPT e pedir-lhe que o formate aí, antes de o copiar e colar novamente no seu documento.

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Eugene van der Watt

Eugene vem de uma formação em engenharia eletrónica e adora tudo o que é tecnologia. Quando faz uma pausa no consumo de notícias sobre IA, pode encontrá-lo à mesa de snooker.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições