Alt, hvad du behøver at vide om OpenAI's nye flagskibsmodel, GPT-4o

13. maj 2024

  • OpenAI annoncerede sin nye multimodale flagskibsmodel kaldet GPT-4o
  • O'et står for "omni" og betegner denne models fremragende audiovisuelle ydeevne
  • GPT-4o kan udføre seriøst imponerende taleoversættelse i realtid
OpenAI

OpenAI har netop demonstreret sin nye flagskibsmodel, GPT-4o, med utrolige talegenkendelses- og oversættelsesevner. 

Som CEO Sam Altman Selv sagde han, at vi vidste OpenAI's seneste "forårsopdatering" var ikke relateret til GPT-5 eller AI-søgning.

Men kl. 10 i dag deltog hundredtusinder i den livestreamede præsentation af den nye model, da Chief Technology Officer (CTO) Mira Murati demonstrerede fordelene ved den i forhold til forgængeren GPT-4.

De vigtigste meddelelser fra demosessionen omfatter:

  • GPT-4o (o'et står for omni) har til hensigt at afløse GPT-4 med OpenAI og kalder den for sit nye flagskib, grundmodellen. 
  • Selvom det stort set ligner GPT-4, GPT-4o tilbyder overlegen flersproget og audiovisuel behandling. Den kan behandle og oversætte lyd i næsten realtid. Senere tests viste, at GPT-4o er dårligere end GPT-4 på nogle 'hårde opgaver'.
  • OpenAI laver GPT-4o frit tilgængelig, med begrænsninger. Pro-brugere får stadig prioritet og et højere meddelelsesloft.
  • OpenAI udgiver også en desktop-version af ChatGPTi første omgang kun til Mac, som udrulles med det samme.
  • Brugerdefinerede GPT'er vil også blive tilgængelige for gratis brugere.
  • GPT-4o og dens stemmefunktioner vil blive rullet langsomt ud i løbet af de kommende uger og måneder.

GPT-4o's lydoversættelse i realtid

Overskriften, der har fået alle til at tale, er GPT-4o's imponerende lydbehandling og -oversættelse, som fungerer i næsten realtid. 

Demonstrationer viste, at AI'en deltog i bemærkelsesværdigt naturlige stemmesamtaler, tilbød øjeblikkelige oversættelser, fortalte historier og gav råd om kodning. 

Modellen kan f.eks. analysere et billede af en fremmedsproget menu, oversætte den og give kulturelle indsigter og anbefalinger. 

Den kan også genkende følelser gennem vejrtrækning, ansigtsudtryk og andre visuelle signaler. 

GPT-4o's evner til at genkende følelser vil nok vække opsigt, når støvet har lagt sig.

Følelsesmæssigt kognitiv AI kan udvikle potentielt skadelige brugsscenarier, der er afhængige af menneskelig efterligning, såsom deep fakes, social engineering osv. 

En anden imponerende evne, som teamet demonstrerede, er kodningshjælp i realtid via stemmen.

I en demo så man endda to eksemplarer af modellen, der sang til hinanden.

Det generelle indhold af OpenAI's demoer er, at virksomheden sigter mod at gøre AI-multimodalitet virkelig nyttig i hverdagsscenarier og udfordre værktøjer som Google Translate i processen. 

En anden vigtig pointe er, at disse demoer er virkelighedstro. OpenAI påpegede, at "Alle videoer på denne side er i 1x realtid", hvilket muligvis hentyder til Google, som redigerede kraftigt i sin Gemini Demovideo til at overdrive sine multimodale færdigheder.

Med GPT-4o kan multimodale AI-applikationer gå fra at være en nyhed begravet dybt inde i AI-grænseflader til noget, som almindelige brugere kan interagere med dagligt.

Selv om demoen var imponerende, er det stadig en demo, og resultater fra gennemsnitlige brugere "i naturen" vil virkelig afsløre, hvor kompetente disse funktioner er.

Bortset fra stemmebehandling og -oversættelse i realtid, som fylder meget i rampelyset, er det faktum, at OpenAI er at gøre denne nye model fri for begrænsninger er massiv. 

Welvom GPT-4o *bare* er en lidt bedre GPT-4, vil den udstyre alle med en AI-model i topkvalitet og dermed skabe lige vilkår for millioner af mennesker verden over.

Du kan se annonceringen og demoen nedenfor:

Alt, hvad vi ved om GPT-4o

Her er en oversigt over alt, hvad vi ved om GPT-4o indtil videre:

  • Multimodal integration: GPT-4o behandler og genererer hurtigt tekst-, lyd- og billeddata, hvilket muliggør dynamisk interaktion på tværs af forskellige formater. 
  • Svar i realtid: Modellen har imponerende reaktionstider, der kan sammenlignes med menneskelige reaktionshastigheder i samtaler, med lydreaktioner, der starter på så lidt som 232 millisekunder.
  • Sprog- og kodningskompetencer: GPT-4o matcher GPT-4 Turbos præstation i engelske og kodningsopgaver og overgår den i ikke-engelsk tekstbehandling.
  • Audiovisuelle forbedringer: Sammenlignet med tidligere modeller viser GPT-4o en overlegen forståelse af syns- og lydopgaver, hvilket forbedrer dens evne til at interagere med multimedieindhold.
  • Naturlige interaktioner: Demonstrationerne omfattede to GPT-4'ere, der sang en sang, hjalp med interviewforberedelse, spillede spil som sten, saks og papir og endda skabte humor med far-jokes.
  • Reducerede omkostninger for udviklere: OpenAI har sænket prisen for udviklere, der bruger GPT-4o, med 50% og fordoblet behandlingshastigheden.
  • Benchmark-præstation: GPT-4o benchmarks udmærker sig i flersprogede, auditive og visuelle opgaver, selv om uafhængige tests bekræfter, at den er bagud i forhold til GPT-4 i forbindelse med kodning, matematik og andre 'svære opgaver'. 

GPT-4o er en betydningsfuld meddelelse for OpenAI, particularly as its the most powerful free closed model available by a sizeable margin.

Det kan signalere en æra med praktisk, nyttig AI-multimodalitet, som folk begynder at engagere sig i i massevis.

Det ville være en kæmpe milepæl både for virksomheden og for den generative AI-industri som helhed.

Deltag i fremtiden


TILMELD DIG I DAG

Klar, kortfattet, omfattende. Få styr på AI-udviklingen med DailyAI

Sam Jeans

Sam er videnskabs- og teknologiforfatter og har arbejdet i forskellige AI-startups. Når han ikke skriver, kan han finde på at læse medicinske tidsskrifter eller grave i kasser med vinylplader.

×

GRATIS PDF EKSKLUSIVT
Vær på forkant med DailyAI

Tilmeld dig vores ugentlige nyhedsbrev og få eksklusiv adgang til DailyAI's seneste e-bog: 'Mastering AI Tools: Din 2024-guide til forbedret produktivitet'.

*Ved at tilmelde dig vores nyhedsbrev accepterer du vores Politik for beskyttelse af personlige oplysninger og vores Vilkår og betingelser