Agentes de IA y Phi-3 multimodal presentados en Microsoft Build 2024

22 de mayo de 2024

  • Microsoft presenta Team Copilot, una herramienta de productividad colaborativa, en su conferencia para desarrolladores Build
  • Copilot Studio puede crear agentes de IA para automatizar funciones en todas las aplicaciones
  • Phi-3 Vision incorpora las modalidades de imagen y audio a la familia de modelos de lenguaje reducido Phi-3

Satya Nadella aprovechó su discurso de apertura del primer día de la Build Developer Conference de Microsoft para anunciar algunas novedades interesantes sobre IA que pronto estarán disponibles de forma generalizada.

Microsoft Build es una conferencia anual en la que los desarrolladores pueden ver las últimas novedades de Windows 11 y Microsoft 365. El primer día se presentaron algunas interesantes herramientas de IA generativa.

Equipo Copilot

En 2023 Microsoft lanzó su Copilot que proporciona asistencia inteligente en tiempo real mientras trabajas con herramientas de Microsoft 365 como Word, Excel, PowerPoint, Outlook o Teams.

Nadella anunció una importante actualización de la IA con Team Copilot. Equipo Copilot amplía Copilot de asistente personal individual a formar parte de un equipo, mejorando la colaboración y la gestión de proyectos.

Si trabajas en equipo con Microsoft Teams, Microsoft Loop o Microsoft Planner, Team Copilot puede facilitar las reuniones gestionando el orden del día y tomando notas. Puede resaltar la información importante, hacer un seguimiento de los puntos de acción y abordar las cuestiones pendientes.

Incluso puede actuar como gestor de proyectos, asignando tareas, controlando los plazos y notificando a los miembros del equipo cuándo se necesita su aportación.

Agentes copiloto personalizados

Microsoft Copilot Studio te permitirá construir copilotos personalizados que actúen como agentes que trabajan de forma independiente después de que les des instrucciones.

Mediante una pregunta en lenguaje natural, basta con describir lo que se desea que haga el agente y desplegarlo en múltiples plataformas.

Microsoft dice que estos agentes pueden:

  • Automatizar procesos empresariales de larga duración
  • Razonar sobre acciones y entradas del usuario
  • Aprovechar la memoria para aportar contexto
  • Aprender a partir de los comentarios de los usuarios
  • Registre las solicitudes de excepción y pida ayuda.

Un ejemplo de la utilidad que podría ofrecer un agente de este tipo es un copiloto "tomador de pedidos" que, según Microsoft, podría "encargarse del proceso de tramitación de pedidos de principio a fin, desde la recepción del pedido hasta su procesamiento y la formulación de recomendaciones y sustituciones inteligentes para artículos agotados, hasta su envío al cliente".

Esta función le permite crear empleados virtuales que se ocupen de tareas menores, como la supervisión del correo electrónico, la introducción de datos u otras tareas repetitivas, sin necesidad de aumentar su plantilla.

Visión Phi-3

Microsoft ha añadido un modelo multimodal de 4,2B parámetros a su Phi-3 de pequeños modelos de lenguaje (SLM). Phi-3 Vision es un modelo de bajo coste y baja latencia que dispone de funciones de audio y visión y una ventana de contexto de 128 k.

Estos modelos más pequeños están pensados para soluciones en dispositivos donde las limitaciones de velocidad, coste, computación y conectividad a Internet hacen inviables los modelos de mayor tamaño. Los SLM Phi-3 muestran una capacidad de razonamiento superior y superan a varios modelos de mayor tamaño.

Permitir el razonamiento multimodal en el dispositivo abre interesantes aplicaciones en sanidad, educación y agricultura, especialmente para zonas rurales sin conectividad a Internet.

Puede probar Phi-3 Vision aquí. Hace un gran trabajo analizando imágenes, extrayendo texto e incluso traduciendo.

Resultados del benchmark Phi-3 Vision comparados con otros modelos de IA. Fuente: Microsoft

Pasta avanzada

Windows 11 ofrece ahora una forma más inteligente de copiar y pegar. La nueva función de pegado avanzado ofrece más opciones para los datos que se copian en el portapapeles. Al pulsar Tecla de Windows + Mayús + V se le presentan opciones para pegar como texto sin formato, como markdown o como JSON.

También puede escribir una descripción de cómo desea que se procese el texto copiado antes de pegarlo.

Necesitarás un OpenAI API y créditos en su cuenta para utilizar esta función. Sólo le ahorra la molestia de pegar el texto en ChatGPT y pedirle que le dé formato allí, antes de copiarlo y pegarlo de nuevo en su documento.

Únete al futuro


SUSCRÍBETE HOY

Claro, conciso y completo. Conozca los avances de la IA con DailyAI

Eugene van der Watt

Eugene es ingeniero electrónico y le encanta todo lo relacionado con la tecnología. Cuando descansa de consumir noticias sobre IA, lo encontrará jugando al billar.

×

PDF GRATUITO EXCLUSIVO
Adelántese con DailyAI

Suscríbase a nuestro boletín semanal y reciba acceso exclusivo al último eBook de DailyAI: 'Mastering AI Tools: Su guía 2024 para mejorar la productividad'.

*Al suscribirse a nuestro boletín de noticias, acepta nuestra política de privacidad. Política de privacidad y nuestro Condiciones generales