Allt du behöver veta om OpenAI:s nya flaggskeppsmodell, GPT-4o

OpenAI demonstrerade just sin nya flaggskeppsmodell, GPT-4o, med otrolig taligenkänning och översättningsförmåga.

Som VD för Sam Altman själv sagt, visste vi OpenAIsenaste "våruppdateringen" var inte relaterad till GPT-5 eller AI-sökning.

Men kl. 10.00 idag deltog hundratusentals i den direktsända presentationen av den nya modellen när Chief Technology Officer (CTO) Mira Murati demonstrerade fördelarna med den jämfört med föregångaren GPT-4.

Viktiga tillkännagivanden från demosessionen inkluderar:

GPT-4o (o:et står för omni) avser att ersätta GPT-4, med OpenAI och kallar det för sin nya flaggskeppsmodell.
Även om det i stort sett liknar GPT-4, GPT-4o erbjuder överlägsen flerspråkig och audiovisuell bearbetning. Den kan bearbeta och översätta ljud i nästan realtid. Senare tester visade att GPT-4o är sämre än GPT-4 på vissa "svåra uppgifter".
OpenAI gör GPT-4o fritt tillgängligt, med begränsningar. Pro-användare får fortfarande prioritet och ett högre meddelandetak.
OpenAI släpper också en skrivbordsversion av ChatGPT, initialt endast för Mac, som lanseras omedelbart.
Anpassade GPT:er kommer också att bli tillgängliga för gratisanvändare.
GPT-4o och dess röstfunktioner kommer att rullas ut långsamt under de kommande veckorna och månaderna.

GPT-4os ljudöversättning i realtid

Rubriken som fått alla att prata är GPT-4o:s imponerande ljudbearbetning och översättning, som sker i nära realtid.

Demonstrationer visade att AI:n deltog i anmärkningsvärt naturliga röstkonversationer, erbjöd omedelbara översättningar, berättade historier och gav kodningsråd.

Modellen kan t.ex. analysera en bild av en meny på ett främmande språk, översätta den och ge kulturella insikter och rekommendationer.

OpenAI har just demonstrerat sin nya GPT-4o-modell som gör översättningar i realtid 🤯 pic.twitter.com/Cl0gp9v3kN

- Tom Warren (@tomwarren) 13 maj 2024

Den kan också känna igen känslor genom andning, ansiktsuttryck och andra visuella signaler.

Klipp från samtal i realtid med GPT4-o som körs på ChatGPT app

NYTT: Istället för att bara omvandla SPEECH till text kan GPT-4o även förstå och märka andra funktioner i ljud, som andning och känslor. Jag är inte säker på hur detta uttrycks i modellsvaret.#openai https://t.co/CpvCkjI0iA pic.twitter.com/24C8rhMFAw

- Andrew Gao (@itsandrewgao) 13 maj 2024

GPT-4o:s förmåga att känna igen känslor kommer förmodligen att väcka kontroverser när dammet väl har lagt sig.

Känslomässigt kognitiv AI kan utveckla potentiellt skadliga användningsområden som bygger på mänsklig imitation, t.ex. deep fakes, social ingenjörskonst osv.

En annan imponerande färdighet som demonstrerades av teamet är kodningshjälp i realtid via röst.

Med GPT-4o/ChatGPT desktop-app kan du ha en kodningskompis (svart cirkel) som pratar med dig och ser vad du ser!#openai tillkännagivanden tråd! https://t.co/CpvCkjI0iA pic.twitter.com/Tfh81mBHCv

- Andrew Gao (@itsandrewgao) 13 maj 2024

I en demo sjöng till och med två exemplar av modellen för varandra.

Den här demonstrationen av två GPT-4o som sjunger för varandra är något av det galnaste jag någonsin har sett. pic.twitter.com/UXFfbIpuF6

- Matt Shumer (@mattshumer_) 13 maj 2024

Den allmänna innebörden av OpenAIär att företaget strävar efter att göra AI-multimodalitet verkligt användbar i vardagliga scenarier och utmana verktyg som Google Translate i processen.

En annan viktig punkt är att dessa demos är verklighetstrogna. OpenAI påpekade: "Alla videor på den här sidan är i 1x realtid", vilket möjligen anspelar på Google, som kraftigt redigerade sin Gemini Demo video att överdriva sina multimodala färdigheter.

Med GPT-4o kan multimodala AI-applikationer gå från att vara en nyhet som ligger djupt begravd i AI-gränssnitt till något som vanliga användare kan interagera med dagligen.

Även om demonstrationen var imponerande är det fortfarande en demonstration, och resultat från genomsnittliga användare "i det vilda" kommer verkligen att avslöja hur kompetenta dessa funktioner är.

Bortsett från röstbehandling och översättning i realtid, som står i rampljuset, är det faktum att OpenAI är att göra den här nya modellen fri från begränsningar är enorm.

Wedan GPT-4o *bara* är en något bättre GPT-4, kommer den att förse alla med en AI-modell av högsta kvalitet, vilket jämnar ut spelplanen för miljontals människor världen över.

Du kan se tillkännagivandet och demonstrationen nedan:

Allt vi vet om GPT-4o

Här är en sammanfattning av allt vi vet om GPT-4o hittills:

Multimodal integration: GPT-4o bearbetar och genererar snabbt text-, ljud- och bilddata, vilket möjliggör dynamiska interaktioner över olika format.
Svar i realtid: Modellen har imponerande svarstider, jämförbara med mänskliga reaktionshastigheter i samtal, med ljudsvar som startar på så lite som 232 millisekunder.
Språk- och kodningskompetens: GPT-4o matchar prestandan hos GPT-4 Turbo i engelska och kodningsuppgifter och överträffar den i icke-engelsk textbearbetning.
Audiovisuella förbättringar: Jämfört med tidigare modeller visar GPT-4o en överlägsen förståelse för syn- och ljuduppgifter, vilket förbättrar dess förmåga att interagera med multimediainnehåll.
Naturliga interaktioner: Demonstrationerna omfattade två GPT-4os som sjöng en sång, hjälpte till med förberedelser inför intervjuer, spelade spel som sten, sax, påse och till och med skapade humor med pappaskämt.
Minskade kostnader för utvecklare: OpenAI har sänkt kostnaden för utvecklare som använder GPT-4o med 50% och fördubblat dess bearbetningshastighet.
Benchmark-prestanda: GPT-4o riktmärken utmärker sig i flerspråkiga, ljud- och visuella uppgifter, även om oberoende tester bekräftar att den ligger efter GPT-4 i vissa kodnings-, matematik- och andra "svåra uppgifter".

GPT-4o är ett betydelsefullt tillkännagivande för OpenAI, particularly as its the most powerful free closed model available by a sizeable margin.

Det kan bli startskottet för en era av praktisk, användbar AI-multimodalitet som människor börjar använda i stor skala.

Det skulle vara en enorm milstolpe både för företaget och för den generativa AI-industrin som helhet.

Allt du behöver veta om OpenAI:s nya flaggskeppsmodell, GPT-4o

GPT-4os ljudöversättning i realtid

Allt vi vet om GPT-4o

Bli en del av framtiden

Sam Jeans

RELATERADE ARTIKLAR

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

Allt du behöver veta om OpenAI:s nya flaggskeppsmodell, GPT-4o

GPT-4os ljudöversättning i realtid

Allt vi vet om GPT-4o

Bli en del av framtiden

Sam Jeans

RELATERADE ARTIKLAR

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

GRATIS PDF EXKLUSIVLigg steget före med DailyAI

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI