Les agents d'intelligence artificielle et le Phi-3 multimodal dévoilés à la Microsoft Build 2024

22 mai 2024

  • Microsoft a dévoilé Team Copilot, un outil de productivité collaboratif, lors de sa conférence Build Developer.
  • Copilot Studio permet de créer des agents d'intelligence artificielle pour automatiser les fonctions dans les applications.
  • Phi-3 Vision ajoute les modalités image et audio à la famille des petits modèles de langage Phi-3

Satya Nadella a profité de son discours d'ouverture du premier jour de la conférence des développeurs Build de Microsoft pour annoncer de nouveaux développements passionnants en matière d'IA qui seront bientôt disponibles de manière générale.

Microsoft Build est une conférence annuelle au cours de laquelle les développeurs peuvent découvrir les derniers développements de Windows 11 et de Microsoft 365. Le premier jour a vu le dévoilement de quelques outils d'IA générative intéressants.

L'équipe Copilot

En 2023, Microsoft a publié son Copilot qui fournit une assistance intelligente en temps réel lorsque vous travaillez avec des outils Microsoft 365 tels que Word, Excel, PowerPoint, Outlook ou Teams.

Nadella a annoncé qu'il bénéficiait d'une mise à niveau significative de l'IA avec Team Copilot. Équipe Copilot élargit Copilot de l'assistant personnel individuel à l'intégration dans une équipe, en améliorant la collaboration et la gestion de projets.

Si vous travaillez au sein d'une équipe utilisant Microsoft Teams, Microsoft Loop ou Microsoft Planner, Team Copilot peut faciliter les réunions en gérant l'ordre du jour et en prenant des notes. Il permet de mettre en évidence les informations importantes, de suivre les actions à entreprendre et d'aborder les questions non résolues.

Il peut même faire office de gestionnaire de projet en assignant des tâches, en suivant les délais et en avertissant les membres de l'équipe lorsque leur contribution est nécessaire.

Agents copilotes personnalisés

Microsoft Copilot Studio vous permettra de créer des copilotes personnalisés qui agiront comme des agents indépendants après que vous leur aurez donné des instructions.

À l'aide d'une invite en langage naturel, vous décrivez simplement ce que vous voulez que l'agent fasse, puis vous le déployez sur plusieurs plates-formes.

Selon Microsoft, ces agents peuvent :

  • Automatiser les processus opérationnels de longue durée
  • Raisonner sur les actions et les entrées de l'utilisateur
  • Tirer parti de la mémoire pour intégrer le contexte
  • Apprendre en s'appuyant sur le retour d'information des utilisateurs
  • Enregistrez les demandes d'exception et demandez de l'aide.

Pour illustrer l'utilité d'un tel agent, Microsoft propose un copilote "preneur de commande" qui pourrait "gérer le processus d'exécution des commandes de bout en bout, de la prise de commande au traitement de la commande, en passant par des recommandations intelligentes et des substitutions pour les articles en rupture de stock, jusqu'à l'expédition au client".

Cette fonctionnalité vous permet de créer des employés virtuels chargés de tâches subalternes telles que la surveillance des courriels, la saisie de données ou d'autres tâches répétitives, sans augmenter vos effectifs.

Vision Phi-3

Microsoft a ajouté un modèle multimodal de 4,2 milliards de paramètres à sa base de données. Phi-3 de la famille des petits modèles de langage (SLM). Phi-3 Vision est un modèle à faible coût et à faible latence qui dispose de capacités audio et visuelles et d'une fenêtre contextuelle de 128k.

Ces modèles plus petits sont destinés à des solutions sur appareil où les contraintes de vitesse, de coût, de calcul et de connectivité internet rendent les modèles plus grands impraticables. Les SLM Phi-3 affichent des capacités de raisonnement supérieures et surpassent plusieurs modèles plus grands.

Le raisonnement multimodal sur l'appareil ouvre la voie à des applications intéressantes dans les domaines de la santé, de l'éducation et de l'agriculture, en particulier dans les zones rurales dépourvues de connexion à l'internet.

Vous pouvez essayer Vision Phi-3 ici. Il fait un excellent travail d'analyse d'images, d'extraction de texte et même de traduction.

Résultats du benchmark Phi-3 Vision comparés à d'autres modèles d'IA. Source : Microsoft

Pâte avancée

Windows 11 propose désormais une manière plus intelligente de copier et de coller. La nouvelle fonction de collage avancé vous offre davantage d'options pour les données que vous copiez dans le presse-papiers. Lorsque vous appuyez sur les touches Windows + Shift + V, vous avez la possibilité de coller du texte brut, du markdown ou du JSON.

Vous pouvez également saisir une description de la manière dont vous souhaitez que le texte copié soit traité avant d'être collé.

Vous aurez besoin d'un OpenAI API et des crédits dans votre compte pour utiliser cette fonctionnalité. Cela vous évite simplement de coller le texte dans le fichier ChatGPT et lui demander de le formater à cet endroit, avant de le copier et de le coller dans votre document.

Rejoindre l'avenir


SOUSCRIRE AUJOURD'HUI

Clair, concis, complet. Maîtrisez les développements de l'IA avec DailyAI

Eugène van der Watt

Eugene a une formation d'ingénieur en électronique et adore tout ce qui touche à la technologie. Lorsqu'il fait une pause dans sa consommation d'informations sur l'IA, vous le trouverez à la table de snooker.

×

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI

Inscrivez-vous à notre newsletter hebdomadaire et recevez un accès exclusif au dernier eBook de DailyAI : 'Mastering AI Tools : Your 2024 Guide to Enhanced Productivity" (Maîtriser les outils de l'IA : votre guide 2024 pour une meilleure productivité).

*En vous abonnant à notre lettre d'information, vous acceptez nos conditions d'utilisation. Politique de confidentialité et notre Conditions générales d'utilisation