Alles, was Sie über das neue Flaggschiff von OpenAI, GPT-4o, wissen müssen

Mai 13, 2024

  • OpenAI kündigte sein neues multimodales Flaggschiff-Modell namens GPT-4o an
  • Das O steht für "omni" und bezeichnet die hervorragende audio-visuelle Leistung dieses Modells
  • GPT-4o kann eine beeindruckende Echtzeit-Sprachübersetzung durchführen
OpenAI

OpenAI hat gerade sein neues Flaggschiff, das GPT-4o, mit unglaublichen Spracherkennungs- und Übersetzungsfähigkeiten vorgestellt. 

Als CEO Sam Altman selbst erklärte, wir wüssten OpenAIDie jüngste "Frühjahrsaktualisierung" stand in keinem Zusammenhang mit GPT-5 oder KI-Suche.

Doch heute um 10 Uhr PT verfolgten Hunderttausende die live gestreamte Präsentation des neuen Modells, als Chief Technology Officer (CTO) Mira Murati dessen Vorteile gegenüber dem Vorgängermodell GPT-4 demonstrierte.

Zu den wichtigsten Ankündigungen der Demositzung gehören:

  • GPT-4o (das o steht für omni) soll das GPT-4 ablösen, mit OpenAI und nennt es sein neues Flaggschiff, das Grundmodell. 
  • Sie ähnelt zwar weitgehend der GPT-4, GPT-4o bietet eine hervorragende mehrsprachige und audiovisuelle Verarbeitung. Es kann Audio nahezu in Echtzeit verarbeiten und übersetzen. Spätere Tests haben gezeigt, dass GPT-4o bei einigen "schweren Aufgaben" schlechter ist als GPT-4.
  • OpenAI macht GPT-4o frei verfügbar, mit Einschränkungen. Pro-Benutzer erhalten weiterhin Priorität und eine höhere Nachrichtenobergrenze.
  • OpenAI veröffentlicht auch eine Desktop-Version von ChatGPTzunächst nur für Mac, das ab sofort verfügbar ist.
  • Benutzerdefinierte GPTs werden auch für freie Nutzer zugänglich sein.
  • GPT-4o und seine Sprachfunktionen werden in den kommenden Wochen und Monaten langsam eingeführt.

GPT-4oEchtzeit-Audioübersetzung

Die Schlagzeile, die alle zum Reden bringt, ist die beeindruckende Audioverarbeitung und -übersetzung des GPT-4o, die nahezu in Echtzeit erfolgt. 

Die Demonstrationen zeigten, dass die KI bemerkenswert natürliche Sprachgespräche führt, sofortige Übersetzungen anbietet, Geschichten erzählt und Ratschläge zur Programmierung gibt. 

So kann das Modell beispielsweise ein Bild einer fremdsprachigen Speisekarte analysieren, übersetzen und kulturelle Erkenntnisse und Empfehlungen liefern. 

Es kann auch Emotionen anhand von Atmung, Mimik und anderen visuellen Hinweisen erkennen. 

Die Fähigkeit von GPT-4o, Emotionen zu erkennen, wird wahrscheinlich für Kontroversen sorgen, sobald sich der Staub gelegt hat.

Emotional kognitive KI könnte potenziell ruchlose Anwendungsfälle entwickeln, die auf der Nachahmung des Menschen beruhen, wie z. B. Deep Fakes, Social Engineering usw. 

Eine weitere beeindruckende Fähigkeit, die das Team demonstriert hat, ist die Echtzeit-Codierungshilfe per Sprache.

Bei einer Demo sangen sogar zwei Instanzen des Modells miteinander.

Der allgemeine Tenor von OpenAIBei den Demos des Unternehmens geht es darum, KI-Multimodalität in Alltagsszenarien wirklich nützlich zu machen und dabei Tools wie Google Translate herauszufordern. 

Ein weiterer wichtiger Punkt ist, dass diese Demos der Realität entsprechen. OpenAI wies darauf hin, dass "alle Videos auf dieser Seite 1x in Echtzeit sind", möglicherweise in Anspielung auf Google, die ihr Buch stark bearbeitet Gemini Demo-Video seine multimodalen Fähigkeiten hervorzuheben.

Mit GPT-4o könnten sich multimodale KI-Anwendungen von einer Neuheit, die tief in KI-Schnittstellen verborgen ist, zu etwas entwickeln, mit dem normale Nutzer täglich interagieren können.

Die Demo war zwar beeindruckend, aber es ist immer noch eine Demo, und die Ergebnisse von Durchschnittsnutzern "in freier Wildbahn" werden zeigen, wie kompetent diese Funktionen wirklich sind.

Neben der Sprachverarbeitung und -übersetzung in Echtzeit, die im Mittelpunkt des Interesses stehen, ist die Tatsache, dass OpenAI dass dieses neue Modell frei von Zwängen ist, ist enorm. 

Was GPT-4o ist zwar *nur* ein etwas besseres GPT-4, aber es stattet jeden mit einem hochwertigen KI-Modell aus und schafft damit gleiche Voraussetzungen für Millionen von Menschen weltweit.

Sie können sich die Ankündigung und die Demo unten ansehen:

Alles, was wir über GPT-4o wissen

Hier finden Sie eine Übersicht über alles, was wir bisher über GPT-4o wissen:

  • Multimodale Integration: GPT-4o verarbeitet und generiert schnell Text-, Audio- und Bilddaten und ermöglicht so dynamische Interaktionen in verschiedenen Formaten. 
  • Antworten in Echtzeit: Das Modell zeichnet sich durch eine beeindruckende Reaktionszeit aus, die mit der menschlichen Reaktionsgeschwindigkeit in einem Gespräch vergleichbar ist, wobei die Audio-Reaktionen bereits nach 232 Millisekunden einsetzen.
  • Sprach- und Kodierungskenntnisse: GPT-4o erreicht die Leistung von GPT-4 Turbo bei englischen und kodierenden Aufgaben und übertrifft sie bei der Verarbeitung nicht-englischer Texte.
  • Audiovisuelle Verbesserungen: Im Vergleich zu den Vorgängermodellen verfügt das GPT-4o über ein besseres Verständnis von Bild- und Tonaufgaben, wodurch seine Fähigkeit zur Interaktion mit Multimedia-Inhalten verbessert wird.
  • Natürliche Interaktionen: Zwei GPT-4os sangen ein Lied, halfen bei der Vorbereitung auf ein Vorstellungsgespräch, spielten Spiele wie Stein-Schere-Papier und sorgten sogar mit Vaterwitzen für Humor.
  • Geringere Kosten für Entwickler: OpenAI hat die Kosten für Entwickler, die GPT-4o verwenden, um 50% gesenkt und die Verarbeitungsgeschwindigkeit verdoppelt.
  • Benchmark-Leistung: GPT-4o-Benchmarks übertreffen bei mehrsprachigen, Audio- und visuellen Aufgaben, obwohl unabhängige Tests bestätigen, dass es bei einigen Codierungs-, Mathematik- und anderen "schwierigen Aufgaben" hinter GPT-4 liegt. 

GPT-4o ist eine bedeutende Ankündigung für OpenAI, particularly as its the most powerful free closed model available by a sizeable margin.

Es könnte eine Ära praktischer, nützlicher KI-Multimodalität einläuten, mit der die Menschen beginnen, sich massenhaft zu beschäftigen.

Das wäre ein großer Meilenstein sowohl für das Unternehmen als auch für die generative KI-Branche insgesamt.

Join The Future


HEUTE ABONNIEREN

Klar, prägnant, umfassend. Behalten Sie den Überblick über KI-Entwicklungen mit DailyAI

Sam Jeans

Sam ist ein Wissenschafts- und Technologiewissenschaftler, der in verschiedenen KI-Startups gearbeitet hat. Wenn er nicht gerade schreibt, liest er medizinische Fachzeitschriften oder kramt in Kisten mit Schallplatten.

×

KOSTENLOSES PDF EXKLUSIV
Mit DailyAI immer einen Schritt voraus

Melden Sie sich für unseren wöchentlichen Newsletter an und erhalten Sie exklusiven Zugang zum neuesten eBook von DailyAI: 'Mastering AI Tools: Ihr Leitfaden für mehr Produktivität im Jahr 2024".

*Mit der Anmeldung zu unserem Newsletter akzeptieren Sie unsere Datenschutzbestimmungen und unsere Bedingungen und Konditionen