Allt du behöver veta om OpenAI:s nya flaggskeppsmodell, GPT-4o

13 maj 2024

  • OpenAI tillkännagav sin nya multimodala flaggskeppsmodell kallad GPT-4o
  • O:et står för "omni" och betecknar den här modellens utmärkta audiovisuella prestanda
  • GPT-4o kan utföra riktigt imponerande talöversättning i realtid
OpenAI

OpenAI demonstrerade just sin nya flaggskeppsmodell, GPT-4o, med otrolig taligenkänning och översättningsförmåga. 

Som VD för Sam Altman själv sagt, visste vi OpenAIsenaste "våruppdateringen" var inte relaterad till GPT-5 eller AI-sökning.

Men kl. 10.00 idag deltog hundratusentals i den direktsända presentationen av den nya modellen när Chief Technology Officer (CTO) Mira Murati demonstrerade fördelarna med den jämfört med föregångaren GPT-4.

Viktiga tillkännagivanden från demosessionen inkluderar:

  • GPT-4o (o:et står för omni) avser att ersätta GPT-4, med OpenAI och kallar det för sin nya flaggskeppsmodell. 
  • Även om det i stort sett liknar GPT-4, GPT-4o erbjuder överlägsen flerspråkig och audiovisuell bearbetning. Den kan bearbeta och översätta ljud i nästan realtid. Senare tester visade att GPT-4o är sämre än GPT-4 på vissa "svåra uppgifter".
  • OpenAI gör GPT-4o fritt tillgängligt, med begränsningar. Pro-användare får fortfarande prioritet och ett högre meddelandetak.
  • OpenAI släpper också en skrivbordsversion av ChatGPT, initialt endast för Mac, som lanseras omedelbart.
  • Anpassade GPT:er kommer också att bli tillgängliga för gratisanvändare.
  • GPT-4o och dess röstfunktioner kommer att rullas ut långsamt under de kommande veckorna och månaderna.

GPT-4os ljudöversättning i realtid

Rubriken som fått alla att prata är GPT-4o:s imponerande ljudbearbetning och översättning, som sker i nära realtid. 

Demonstrationer visade att AI:n deltog i anmärkningsvärt naturliga röstkonversationer, erbjöd omedelbara översättningar, berättade historier och gav kodningsråd. 

Modellen kan t.ex. analysera en bild av en meny på ett främmande språk, översätta den och ge kulturella insikter och rekommendationer. 

Den kan också känna igen känslor genom andning, ansiktsuttryck och andra visuella signaler. 

GPT-4o:s förmåga att känna igen känslor kommer förmodligen att väcka kontroverser när dammet väl har lagt sig.

Känslomässigt kognitiv AI kan utveckla potentiellt skadliga användningsområden som bygger på mänsklig imitation, t.ex. deep fakes, social ingenjörskonst osv. 

En annan imponerande färdighet som demonstrerades av teamet är kodningshjälp i realtid via röst.

I en demo sjöng till och med två exemplar av modellen för varandra.

Den allmänna innebörden av OpenAIär att företaget strävar efter att göra AI-multimodalitet verkligt användbar i vardagliga scenarier och utmana verktyg som Google Translate i processen. 

En annan viktig punkt är att dessa demos är verklighetstrogna. OpenAI påpekade: "Alla videor på den här sidan är i 1x realtid", vilket möjligen anspelar på Google, som kraftigt redigerade sin Gemini Demo video att överdriva sina multimodala färdigheter.

Med GPT-4o kan multimodala AI-applikationer gå från att vara en nyhet som ligger djupt begravd i AI-gränssnitt till något som vanliga användare kan interagera med dagligen.

Även om demonstrationen var imponerande är det fortfarande en demonstration, och resultat från genomsnittliga användare "i det vilda" kommer verkligen att avslöja hur kompetenta dessa funktioner är.

Bortsett från röstbehandling och översättning i realtid, som står i rampljuset, är det faktum att OpenAI är att göra den här nya modellen fri från begränsningar är enorm. 

Wedan GPT-4o *bara* är en något bättre GPT-4, kommer den att förse alla med en AI-modell av högsta kvalitet, vilket jämnar ut spelplanen för miljontals människor världen över.

Du kan se tillkännagivandet och demonstrationen nedan:

Allt vi vet om GPT-4o

Här är en sammanfattning av allt vi vet om GPT-4o hittills:

  • Multimodal integration: GPT-4o bearbetar och genererar snabbt text-, ljud- och bilddata, vilket möjliggör dynamiska interaktioner över olika format. 
  • Svar i realtid: Modellen har imponerande svarstider, jämförbara med mänskliga reaktionshastigheter i samtal, med ljudsvar som startar på så lite som 232 millisekunder.
  • Språk- och kodningskompetens: GPT-4o matchar prestandan hos GPT-4 Turbo i engelska och kodningsuppgifter och överträffar den i icke-engelsk textbearbetning.
  • Audiovisuella förbättringar: Jämfört med tidigare modeller visar GPT-4o en överlägsen förståelse för syn- och ljuduppgifter, vilket förbättrar dess förmåga att interagera med multimediainnehåll.
  • Naturliga interaktioner: Demonstrationerna omfattade två GPT-4os som sjöng en sång, hjälpte till med förberedelser inför intervjuer, spelade spel som sten, sax, påse och till och med skapade humor med pappaskämt.
  • Minskade kostnader för utvecklare: OpenAI har sänkt kostnaden för utvecklare som använder GPT-4o med 50% och fördubblat dess bearbetningshastighet.
  • Benchmark-prestanda: GPT-4o riktmärken utmärker sig i flerspråkiga, ljud- och visuella uppgifter, även om oberoende tester bekräftar att den ligger efter GPT-4 i vissa kodnings-, matematik- och andra "svåra uppgifter". 

GPT-4o är ett betydelsefullt tillkännagivande för OpenAI, particularly as its the most powerful free closed model available by a sizeable margin.

Det kan bli startskottet för en era av praktisk, användbar AI-multimodalitet som människor börjar använda i stor skala.

Det skulle vara en enorm milstolpe både för företaget och för den generativa AI-industrin som helhet.

Bli en del av framtiden


PRENUMERERA IDAG

Tydlig, kortfattad och heltäckande. Få grepp om AI-utvecklingen med DagligaAI

Sam Jeans

Sam är en vetenskaps- och teknikskribent som har arbetat i olika AI-startups. När han inte skriver läser han medicinska tidskrifter eller gräver igenom lådor med vinylskivor.

×

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI

Registrera dig för vårt veckovisa nyhetsbrev och få exklusiv tillgång till DailyAI:s senaste e-bok: "Mastering AI Tools: Din 2024-guide till förbättrad produktivitet".

*Genom att prenumerera på vårt nyhetsbrev accepterar du vår Integritetspolicy och våra Villkor och anvisningar