OpenAI stellt Realtime API und andere Funktionen für Entwickler vor

2. Oktober 2024

  • OpenAI kündigte mehrere neue Funktionen für Entwickler an, die seine API verwenden
  • Die Realtime API ermöglicht Anwendungen mit niedriger Latenz und Sprachinteraktionen ähnlich dem Advanced Voice Mode
  • Andere Funktionen ermöglichen billigere API-Aufrufe, Feinabstimmung der Vision und Abstimmung kleinerer Modelle mit größeren Modellen

OpenAI hat auf dem Dev Day zwar keine neuen Modelle vorgestellt, aber neue API-Funktionen werden Entwickler begeistern, die ihre Modelle für die Entwicklung leistungsstarker Anwendungen nutzen wollen.

OpenAI hat ein paar harte Wochen hinter sich, in denen sich seine CTO Mira Murati und andere führende Forscher der immer länger werdenden Liste ehemaliger Mitarbeiter angeschlossen haben. Das Unternehmen steht unter zunehmendem Druck durch andere Flaggschiff-Modelle, einschließlich Open-Source-Modelle, die Entwicklern billigere und sehr leistungsfähige Optionen bieten.

Die neuen Funktionen, die OpenAI vorstellte, waren die Echtzeit-API (in der Betaversion), die Feinabstimmung der Vision und effizienzsteigernde Tools wie Prompt-Caching und Modelldestillation.

Echtzeit-API

Die Echtzeit-API ist die aufregendste neue Funktion, wenn auch noch im Beta-Stadium. Sie ermöglicht es Entwicklern, Spracherlebnisse mit niedriger Latenz in ihren Anwendungen zu erstellen, ohne separate Modelle für die Spracherkennung und die Text-zu-Sprache-Umwandlung zu verwenden.

Mit dieser API können Entwickler nun Apps erstellen, die Echtzeitgespräche mit KI ermöglichen, wie z. B. Sprachassistenten oder Sprachlerntools, und zwar über einen einzigen API-Aufruf. Es ist nicht ganz das nahtlose Erlebnis, das der Advanced Voice Mode von GPT-4o bietet, aber es ist nah dran.

Mit etwa $0,06 pro Minute Audioeingang und $0,24 pro Minute Audioausgang ist es allerdings nicht billig.

Feinabstimmung der Vision

Die Feinabstimmung der Bildverarbeitung innerhalb der API ermöglicht es Entwicklern, die Fähigkeit ihrer Modelle zu verbessern, Bilder zu verstehen und mit ihnen zu interagieren. Durch die Feinabstimmung von GPT-4o mit Bildern können Entwickler Anwendungen erstellen, die sich durch Aufgaben wie visuelle Suche oder Objekterkennung auszeichnen.

Diese Funktion wird bereits von Unternehmen wie Grab genutzt, das die Genauigkeit seines Kartendienstes durch eine Feinabstimmung des Modells zur Erkennung von Verkehrsschildern aus Bildern auf Straßenebene verbessert hat.

OpenAI gab auch ein Beispiel dafür, wie GPT-4o zusätzliche Inhalte für eine Website generieren kann, nachdem es stilistisch auf die bestehenden Inhalte der Website abgestimmt wurde.

Prompt-Caching

Um die Kosteneffizienz zu verbessern, hat OpenAI das Prompt-Caching eingeführt, ein Tool, das die Kosten und die Latenz von häufig verwendeten API-Aufrufen reduziert. Durch die Wiederverwendung kürzlich verarbeiteter Eingaben können Entwickler die Kosten um 50% senken und die Antwortzeiten verkürzen. Diese Funktion ist besonders nützlich für Anwendungen, die lange Konversationen oder wiederholten Kontext erfordern, wie Chatbots und Kundendienst-Tools.

Die Verwendung von zwischengespeicherten Eingaben könnte bis zu 50% an Kosten für Eingabe-Token einsparen.

Preisvergleich zwischen zwischengespeicherten und nicht zwischengespeicherten Eingabe-Tokens für die API von OpenAI. Quelle: OpenAI

Modell Destillation

Die Modelldestillation ermöglicht Entwicklern die Feinabstimmung kleinerer, kostengünstigerer Modelle unter Verwendung der Ergebnisse größerer, leistungsfähigerer Modelle. Dies ist ein entscheidender Fortschritt, denn bisher waren für die Destillation mehrere voneinander getrennte Schritte und Tools erforderlich, was den Prozess zeitaufwändig und fehleranfällig machte.

Vor der integrierten Funktion Model Distillation von OpenAI mussten die Entwickler verschiedene Teile des Prozesses manuell orchestrieren, wie z. B. die Generierung von Daten aus größeren Modellen, die Vorbereitung von Feinabstimmungsdatensätzen und die Leistungsmessung mit verschiedenen Tools.

Entwickler können nun automatisch Ausgabepaare von größeren Modellen wie GPT-4o speichern und diese Paare zur Feinabstimmung kleinerer Modelle wie GPT-4o-mini verwenden. Der gesamte Prozess der Erstellung von Datensätzen, der Feinabstimmung und der Bewertung kann auf strukturiertere, automatisierte und effizientere Weise durchgeführt werden.

Der gestraffte Entwicklerprozess, die geringere Latenzzeit und die reduzierten Kosten machen das GPT-4o-Modell von OpenAI zu einer attraktiven Perspektive für Entwickler, die schnell leistungsstarke Anwendungen bereitstellen möchten. Es wird interessant sein zu sehen, welche Anwendungen die multimodalen Funktionen möglich machen.

Join The Future


HEUTE ABONNIEREN

Klar, prägnant, umfassend. Behalten Sie den Überblick über KI-Entwicklungen mit DailyAI

Eugene van der Watt

Eugene kommt aus der Elektronikbranche und liebt alles, was mit Technik zu tun hat. Wenn er eine Pause vom Konsum von KI-Nachrichten einlegt, findet man ihn am Snookertisch.

×

KOSTENLOSES PDF EXKLUSIV
Mit DailyAI immer einen Schritt voraus

Melden Sie sich für unseren wöchentlichen Newsletter an und erhalten Sie exklusiven Zugang zum neuesten eBook von DailyAI: 'Mastering AI Tools: Ihr Leitfaden für mehr Produktivität im Jahr 2024".

*Mit der Anmeldung zu unserem Newsletter akzeptieren Sie unsere Datenschutzbestimmungen und unsere Bedingungen und Konditionen