Agenti AI, Phi-3 multimodale presentati a Microsoft Build 2024

22 maggio 2024

  • Microsoft ha presentato Team Copilot, uno strumento di produttività collaborativa, alla conferenza degli sviluppatori Build.
  • Copilot Studio può creare agenti di intelligenza artificiale per automatizzare le funzioni in tutte le applicazioni.
  • Phi-3 Vision aggiunge alla famiglia di modelli linguistici di piccole dimensioni Phi-3 le modalità audio e di immagine

Satya Nadella ha utilizzato il suo discorso programmatico nel primo giorno della Build Developer Conference di Microsoft per annunciare alcuni nuovi ed entusiasmanti sviluppi dell'intelligenza artificiale che saranno presto disponibili a livello generale.

Microsoft Build è una conferenza annuale in cui gli sviluppatori hanno modo di vedere gli ultimi sviluppi di Windows 11 e Microsoft 365. Il primo giorno ha visto la presentazione di alcuni interessanti strumenti di intelligenza artificiale generativa.

Squadra Copilot

Nel 2023 Microsoft ha rilasciato il suo Copilot chatbot che fornisce assistenza intelligente in tempo reale mentre si lavora con gli strumenti di Microsoft 365 come Word, Excel, PowerPoint, Outlook o Teams.

Nadella ha annunciato un significativo aggiornamento dell'intelligenza artificiale con Team Copilot. Squadra Copilot espande Copilot da assistente personale individuale a parte di un team, migliorando la collaborazione e la gestione dei progetti.

Se si lavora come parte di un team utilizzando Microsoft Teams, Microsoft Loop o Microsoft Planner, Team Copilot può facilitare le riunioni gestendo l'ordine del giorno e prendendo appunti. Può evidenziare le informazioni importanti, tenere traccia dei punti di azione e affrontare le questioni irrisolte.

Può anche fungere da project manager, assegnando compiti, monitorando le scadenze e avvisando i membri del team quando è necessario il loro contributo.

Agenti copilota personalizzati

Microsoft Copilot Studio vi permetterà di costruire copiloti personalizzati che agiscono come agenti che lavorano in modo indipendente dopo aver ricevuto istruzioni.

Utilizzando un prompt in linguaggio naturale, è sufficiente descrivere ciò che si desidera che l'agente faccia e quindi distribuirlo su più piattaforme.

Microsoft afferma che questi agenti possono:

  • Automatizzare i processi aziendali di lunga durata
  • Ragionare sulle azioni e sugli input dell'utente
  • Sfruttare la memoria per inserire il contesto
  • Imparare sulla base del feedback degli utenti
  • Registrare le richieste di eccezione e chiedere aiuto.

Un esempio dell'utilità che un agente di questo tipo potrebbe fornire è un copilota "order-taker" che, secondo Microsoft, potrebbe "gestire il processo di evasione dell'ordine end-to-end, dalla presa in carico dell'ordine all'elaborazione dello stesso e alla formulazione di raccomandazioni intelligenti e sostituzioni di articoli non disponibili, fino alla spedizione al cliente".

Questa funzionalità consente di creare dipendenti virtuali che si occupano di compiti banali come il monitoraggio delle e-mail, l'inserimento di dati o altre attività ripetitive, senza aumentare l'organico.

Visione Phi-3

Microsoft ha aggiunto un modello multimodale con 4,2B parametri al suo Phi-3 famiglia di piccoli modelli linguistici (SLM). Phi-3 Vision è un modello a basso costo e a bassa latenza che dispone di funzionalità audio e visive e di una finestra di contesto di 128k.

Questi modelli più piccoli sono destinati a soluzioni on-device dove i vincoli di velocità, costo, calcolo e connettività Internet rendono impraticabili modelli più grandi. Gli SLM Phi-3 mostrano capacità di ragionamento superiori e superano diversi modelli più grandi.

L'abilitazione del ragionamento multimodale sul dispositivo apre la strada a interessanti applicazioni nei settori della sanità, dell'istruzione e dell'agricoltura, soprattutto nelle aree rurali prive di connettività Internet.

È possibile provare Visione Phi-3 qui. Fa un ottimo lavoro di analisi delle immagini, di estrazione del testo e anche di traduzione.

Risultati del benchmark di Phi-3 Vision rispetto ad altri modelli di AI. Fonte: Microsoft

Pasta avanzata

Windows 11 offre un modo più intelligente per copiare e incollare. La nuova funzione Incolla avanzato offre più opzioni per i dati copiati negli appunti. Quando si preme il tasto Windows + Shift + V, vengono presentate le opzioni per incollare come testo normale, come markdown o come JSON.

È inoltre possibile digitare una descrizione di come si desidera che il testo copiato venga elaborato prima di essere incollato.

Avrete bisogno di un OpenAI Per utilizzare questa funzione, è necessario disporre di una chiave API e di crediti nel proprio account. In questo modo si risparmia la fatica di incollare il testo in ChatGPT e chiedergli di formattarlo lì, prima di copiarlo e incollarlo nuovamente nel documento.

Partecipa al futuro


ISCRIVITI OGGI

Chiaro, conciso, completo. Per conoscere gli sviluppi dell'IA con DailyAI

Eugene van der Watt

Eugene proviene da un background di ingegneria elettronica e ama tutto ciò che è tecnologico. Quando si prende una pausa dal consumo di notizie sull'intelligenza artificiale, lo si può trovare al tavolo da biliardo.

×

PDF GRATUITO ESCLUSIVO
Rimanere all'avanguardia con DailyAI

Iscriviti alla nostra newsletter settimanale e ricevi l'accesso esclusivo all'ultimo eBook di DailyAI: 'Mastering AI Tools: La tua guida 2024 per una maggiore produttività".

*Iscrivendosi alla nostra newsletter si accetta la nostra Informativa sulla privacy e il nostro Termini e condizioni