Alles, was Sie über das neue Flaggschiff-Modell von OpenAI, GPT-4o, wissen müssen

OpenAI hat gerade sein neues Flaggschiff, das GPT-4o, mit unglaublichen Spracherkennungs- und Übersetzungsfähigkeiten vorgestellt.

Als CEO Sam Altman selbst erklärte, wir wüssten OpenAIDie jüngste "Frühjahrsaktualisierung" stand in keinem Zusammenhang mit GPT-5 oder KI-Suche.

Doch heute um 10 Uhr PT verfolgten Hunderttausende die live gestreamte Präsentation des neuen Modells, als Chief Technology Officer (CTO) Mira Murati dessen Vorteile gegenüber dem Vorgängermodell GPT-4 demonstrierte.

Zu den wichtigsten Ankündigungen der Demositzung gehören:

GPT-4o (das o steht für omni) soll das GPT-4 ablösen, mit OpenAI und nennt es sein neues Flaggschiff, das Grundmodell.
Sie ähnelt zwar weitgehend der GPT-4, GPT-4o bietet eine hervorragende mehrsprachige und audiovisuelle Verarbeitung. Es kann Audio nahezu in Echtzeit verarbeiten und übersetzen. Spätere Tests haben gezeigt, dass GPT-4o bei einigen "schweren Aufgaben" schlechter ist als GPT-4.
OpenAI macht GPT-4o frei verfügbar, mit Einschränkungen. Pro-Benutzer erhalten weiterhin Priorität und eine höhere Nachrichtenobergrenze.
OpenAI veröffentlicht auch eine Desktop-Version von ChatGPTzunächst nur für Mac, das ab sofort verfügbar ist.
Benutzerdefinierte GPTs werden auch für freie Nutzer zugänglich sein.
GPT-4o und seine Sprachfunktionen werden in den kommenden Wochen und Monaten langsam eingeführt.

GPT-4oEchtzeit-Audioübersetzung

Die Schlagzeile, die alle zum Reden bringt, ist die beeindruckende Audioverarbeitung und -übersetzung des GPT-4o, die nahezu in Echtzeit erfolgt.

Die Demonstrationen zeigten, dass die KI bemerkenswert natürliche Sprachgespräche führt, sofortige Übersetzungen anbietet, Geschichten erzählt und Ratschläge zur Programmierung gibt.

So kann das Modell beispielsweise ein Bild einer fremdsprachigen Speisekarte analysieren, übersetzen und kulturelle Erkenntnisse und Empfehlungen liefern.

OpenAI hat gerade sein neues Modell GPT-4o für Echtzeit-Übersetzungen vorgestellt 🤯. pic.twitter.com/Cl0gp9v3kN

- Tom Warren (@tomwarren) 13. Mai 2024

Es kann auch Emotionen anhand von Atmung, Mimik und anderen visuellen Hinweisen erkennen.

Mitschnitt eines Echtzeitgesprächs mit GPT4-o, das auf ChatGPT app

NEU: Anstatt nur SPRACHE in Text umzuwandeln, kann GPT-4o auch andere Merkmale von Audiodaten verstehen und beschriften, wie z.B. ATMUNG und EMOTION. Ich bin nicht sicher, wie dies in der Modellantwort ausgedrückt wird.#openai https://t.co/CpvCkjI0iA pic.twitter.com/24C8rhMFAw

- Andrew Gao (@itsandrewgao) 13. Mai 2024

Die Fähigkeit von GPT-4o, Emotionen zu erkennen, wird wahrscheinlich für Kontroversen sorgen, sobald sich der Staub gelegt hat.

Emotional kognitive KI könnte potenziell ruchlose Anwendungsfälle entwickeln, die auf der Nachahmung des Menschen beruhen, wie z. B. Deep Fakes, Social Engineering usw.

Eine weitere beeindruckende Fähigkeit, die das Team demonstriert hat, ist die Echtzeit-Codierungshilfe per Sprache.

Mit dem GPT-4o/ChatGPT Desktop-App können Sie einen Coding Buddy (schwarzer Kreis) haben, der mit Ihnen spricht und sieht, was Sie sehen!#openai Ankündigungsthread! https://t.co/CpvCkjI0iA pic.twitter.com/Tfh81mBHCv

- Andrew Gao (@itsandrewgao) 13. Mai 2024

Bei einer Demo sangen sogar zwei Instanzen des Modells miteinander.

Diese Demo von zwei GPT-4o, die miteinander singen, ist eine der verrücktesten Sachen, die ich je gesehen habe. pic.twitter.com/UXFfbIpuF6

- Matt Shumer (@mattshumer_) 13. Mai 2024

Der allgemeine Tenor von OpenAIBei den Demos des Unternehmens geht es darum, KI-Multimodalität in Alltagsszenarien wirklich nützlich zu machen und dabei Tools wie Google Translate herauszufordern.

Ein weiterer wichtiger Punkt ist, dass diese Demos der Realität entsprechen. OpenAI wies darauf hin, dass "alle Videos auf dieser Seite 1x in Echtzeit sind", möglicherweise in Anspielung auf Google, die ihr Buch stark bearbeitet Gemini Demo-Video seine multimodalen Fähigkeiten hervorzuheben.

Mit GPT-4o könnten sich multimodale KI-Anwendungen von einer Neuheit, die tief in KI-Schnittstellen verborgen ist, zu etwas entwickeln, mit dem normale Nutzer täglich interagieren können.

Die Demo war zwar beeindruckend, aber es ist immer noch eine Demo, und die Ergebnisse von Durchschnittsnutzern "in freier Wildbahn" werden zeigen, wie kompetent diese Funktionen wirklich sind.

Neben der Sprachverarbeitung und -übersetzung in Echtzeit, die im Mittelpunkt des Interesses stehen, ist die Tatsache, dass OpenAI dass dieses neue Modell frei von Zwängen ist, ist enorm.

Was GPT-4o ist zwar *nur* ein etwas besseres GPT-4, aber es stattet jeden mit einem hochwertigen KI-Modell aus und schafft damit gleiche Voraussetzungen für Millionen von Menschen weltweit.

Sie können sich die Ankündigung und die Demo unten ansehen:

Alles, was wir über GPT-4o wissen

Hier finden Sie eine Übersicht über alles, was wir bisher über GPT-4o wissen:

Multimodale Integration: GPT-4o verarbeitet und generiert schnell Text-, Audio- und Bilddaten und ermöglicht so dynamische Interaktionen in verschiedenen Formaten.
Antworten in Echtzeit: Das Modell zeichnet sich durch eine beeindruckende Reaktionszeit aus, die mit der menschlichen Reaktionsgeschwindigkeit in einem Gespräch vergleichbar ist, wobei die Audio-Reaktionen bereits nach 232 Millisekunden einsetzen.
Sprach- und Kodierungskenntnisse: GPT-4o erreicht die Leistung von GPT-4 Turbo bei englischen und kodierenden Aufgaben und übertrifft sie bei der Verarbeitung nicht-englischer Texte.
Audiovisuelle Verbesserungen: Im Vergleich zu den Vorgängermodellen verfügt das GPT-4o über ein besseres Verständnis von Bild- und Tonaufgaben, wodurch seine Fähigkeit zur Interaktion mit Multimedia-Inhalten verbessert wird.
Natürliche Interaktionen: Zwei GPT-4os sangen ein Lied, halfen bei der Vorbereitung auf ein Vorstellungsgespräch, spielten Spiele wie Stein-Schere-Papier und sorgten sogar mit Vaterwitzen für Humor.
Geringere Kosten für Entwickler: OpenAI hat die Kosten für Entwickler, die GPT-4o verwenden, um 50% gesenkt und die Verarbeitungsgeschwindigkeit verdoppelt.
Benchmark-Leistung: GPT-4o-Benchmarks übertreffen bei mehrsprachigen, Audio- und visuellen Aufgaben, obwohl unabhängige Tests bestätigen, dass es bei einigen Codierungs-, Mathematik- und anderen "schwierigen Aufgaben" hinter GPT-4 liegt.

GPT-4o ist eine bedeutende Ankündigung für OpenAI, particularly as its the most powerful free closed model available by a sizeable margin.

Es könnte eine Ära praktischer, nützlicher KI-Multimodalität einläuten, mit der die Menschen beginnen, sich massenhaft zu beschäftigen.

Das wäre ein großer Meilenstein sowohl für das Unternehmen als auch für die generative KI-Branche insgesamt.

Alles, was Sie über das neue Flaggschiff von OpenAI, GPT-4o, wissen müssen

GPT-4oEchtzeit-Audioübersetzung

Alles, was wir über GPT-4o wissen

Join The Future

Sam Jeans

VERWANDTE ARTIKEL

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

Alles, was Sie über das neue Flaggschiff von OpenAI, GPT-4o, wissen müssen

GPT-4oEchtzeit-Audioübersetzung

Alles, was wir über GPT-4o wissen

Join The Future

Sam Jeans

VERWANDTE ARTIKEL

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

KOSTENLOSES PDF EXKLUSIVMit DailyAI immer einen Schritt voraus

KOSTENLOSES PDF EXKLUSIV
Mit DailyAI immer einen Schritt voraus