KI-Agenten, multimodaler Phi-3 auf der Microsoft Build 2024 vorgestellt

Mai 22, 2024

  • Microsoft hat auf seiner Build-Entwicklerkonferenz Team Copilot vorgestellt, ein Tool für die Zusammenarbeit.
  • Copilot Studio kann KI-Agenten erstellen, um Funktionen anwendungsübergreifend zu automatisieren
  • Phi-3 Vision erweitert die Phi-3 Small Language Model Familie um Bild- und Audiomodalitäten

Satya Nadella nutzte seine Keynote am ersten Tag der Microsoft Build Developer Conference, um einige aufregende neue KI-Entwicklungen anzukündigen, die bald allgemein verfügbar sein werden.

Microsoft Build ist eine jährliche Konferenz, auf der Entwickler die neuesten Entwicklungen in Windows 11 und Microsoft 365 sehen können. Am ersten Tag wurden einige interessante generative KI-Tools enthüllt.

Team Copilot

Im Jahr 2023 veröffentlichte Microsoft seine Copilot Chatbot, der in Echtzeit intelligente Unterstützung bietet, während Sie mit Microsoft 365-Tools wie Word, Excel, PowerPoint, Outlook oder Teams arbeiten.

Nadella kündigte an, dass die Software mit Team Copilot. Mannschaft Copilot Erweitert Copilot von einem individuellen persönlichen Assistenten zu einem Teil eines Teams werden, was die Zusammenarbeit und das Projektmanagement verbessert.

Wenn Sie als Teil eines Teams mit Microsoft Teams, Microsoft Loop oder Microsoft Planner arbeiten, kann Team Copilot kann Besprechungen erleichtern, indem es die Tagesordnung verwaltet und Notizen macht. Es kann wichtige Informationen hervorheben, Aktionspunkte verfolgen und ungelöste Probleme ansprechen.

Es kann sogar als Projektmanager fungieren, indem es Aufgaben zuweist, Fristen verfolgt und Teammitglieder benachrichtigt, wenn ihr Beitrag benötigt wird.

Benutzerdefinierte Kopilot-Agenten

Microsoft Copilot Studio ermöglicht es Ihnen, benutzerdefinierte Kopiloten zu erstellen, die als Agenten agieren und unabhängig arbeiten, nachdem Sie ihnen Anweisungen gegeben haben.

Mithilfe einer natürlichsprachlichen Eingabeaufforderung beschreiben Sie einfach, was der Agent tun soll, und stellen ihn dann auf mehreren Plattformen bereit.

Laut Microsoft können diese Agenten:

  • Automatisieren Sie langlaufende Geschäftsprozesse
  • Reason über Aktionen und Benutzereingaben
  • Nutzen Sie das Gedächtnis, um den Kontext einzubringen
  • Lernen auf der Grundlage von Benutzerfeedback
  • Halten Sie Ausnahmeanträge fest und bitten Sie um Hilfe.

Ein Beispiel für den Nutzen, den ein solcher Agent bieten könnte, ist ein Copilot, der laut Microsoft "den gesamten Prozess der Auftragsabwicklung abwickeln könnte - von der Annahme der Bestellung über die Bearbeitung der Bestellung und die Erstellung intelligenter Empfehlungen und Ersatzartikel für nicht vorrätige Artikel bis hin zum Versand an den Kunden".

Mit dieser Funktion können Sie virtuelle Mitarbeiter einrichten, die einfache Aufgaben wie die Überwachung von E-Mails, die Dateneingabe oder andere sich wiederholende Aufgaben erledigen, ohne dass die Zahl Ihrer Mitarbeiter steigt.

Phi-3 Vision

Microsoft hat ein multimodales Modell mit 4.2B Parametern zu seinem Phi-3 Familie kleiner Sprachmodelle (SLMs). Phi-3 Vision ist ein kostengünstiges Modell mit geringer Latenz, das über Audio- und Bildverarbeitungsfunktionen und ein 128k-Kontextfenster verfügt.

Diese kleineren Modelle sind für geräteinterne Lösungen gedacht, bei denen größere Modelle aufgrund von Geschwindigkeits-, Kosten-, Rechen- und Internetkonnektivitätsbeschränkungen unpraktisch sind. Die Phi-3 SLMs zeigen überlegene Denkfähigkeiten und übertreffen mehrere größere Modelle.

Die Ermöglichung multimodalen Denkens auf dem Gerät eröffnet interessante Anwendungen in den Bereichen Gesundheit, Bildung und Landwirtschaft, insbesondere in ländlichen Gebieten ohne Internetanschluss.

Sie können ausprobieren Phi-3 Vision hier. Es eignet sich hervorragend für die Analyse von Bildern, die Extraktion von Text und sogar für die Übersetzung.

Phi-3 Vision Benchmark-Ergebnisse im Vergleich zu anderen KI-Modellen. Quelle: Microsoft

Erweitertes Einfügen

Windows 11 bietet jetzt eine intelligentere Methode zum Kopieren und Einfügen. Die neue Funktion "Erweitertes Einfügen" bietet Ihnen mehr Optionen für Daten, die Sie in die Zwischenablage kopieren. Wenn Sie die Tastenkombination Windows-Taste + Umschalttaste + V drücken, erhalten Sie Optionen zum Einfügen als reinen Text, als Markdown oder als JSON.

Sie können auch eine Beschreibung eingeben, wie der kopierte Text vor dem Einfügen verarbeitet werden soll.

Sie benötigen eine OpenAI API-Schlüssel und Guthaben in Ihrem Konto benötigen, um diese Funktion zu nutzen. Es erspart Ihnen lediglich das Einfügen des Textes in ChatGPT und fordern Sie es auf, es dort zu formatieren, bevor Sie es wieder in Ihr Dokument kopieren und einfügen.

Join The Future


HEUTE ABONNIEREN

Klar, prägnant, umfassend. Behalten Sie den Überblick über KI-Entwicklungen mit DailyAI

Eugene van der Watt

Eugene kommt aus der Elektronikbranche und liebt alles, was mit Technik zu tun hat. Wenn er eine Pause vom Konsum von KI-Nachrichten einlegt, findet man ihn am Snookertisch.

×

KOSTENLOSES PDF EXKLUSIV
Mit DailyAI immer einen Schritt voraus

Melden Sie sich für unseren wöchentlichen Newsletter an und erhalten Sie exklusiven Zugang zum neuesten eBook von DailyAI: 'Mastering AI Tools: Ihr Leitfaden für mehr Produktivität im Jahr 2024".

*Mit der Anmeldung zu unserem Newsletter akzeptieren Sie unsere Datenschutzbestimmungen und unsere Bedingungen und Konditionen