OpenAI har netop demonstreret sin nye flagskibsmodel, GPT-4o, med utrolige talegenkendelses- og oversættelsesevner.
Som CEO Sam Altman Selv sagde han, at vi vidste OpenAI's seneste "forårsopdatering" var ikke relateret til GPT-5 eller AI-søgning.
Men kl. 10 i dag deltog hundredtusinder i den livestreamede præsentation af den nye model, da Chief Technology Officer (CTO) Mira Murati demonstrerede fordelene ved den i forhold til forgængeren GPT-4.
De vigtigste meddelelser fra demosessionen omfatter:
- GPT-4o (o'et står for omni) har til hensigt at afløse GPT-4 med OpenAI og kalder den for sit nye flagskib, grundmodellen.
- Selvom det stort set ligner GPT-4, GPT-4o tilbyder overlegen flersproget og audiovisuel behandling. Den kan behandle og oversætte lyd i næsten realtid. Senere tests viste, at GPT-4o er dårligere end GPT-4 på nogle 'hårde opgaver'.
- OpenAI laver GPT-4o frit tilgængelig, med begrænsninger. Pro-brugere får stadig prioritet og et højere meddelelsesloft.
- OpenAI udgiver også en desktop-version af ChatGPTi første omgang kun til Mac, som udrulles med det samme.
- Brugerdefinerede GPT'er vil også blive tilgængelige for gratis brugere.
- GPT-4o og dens stemmefunktioner vil blive rullet langsomt ud i løbet af de kommende uger og måneder.
GPT-4o's lydoversættelse i realtid
Overskriften, der har fået alle til at tale, er GPT-4o's imponerende lydbehandling og -oversættelse, som fungerer i næsten realtid.
Demonstrationer viste, at AI'en deltog i bemærkelsesværdigt naturlige stemmesamtaler, tilbød øjeblikkelige oversættelser, fortalte historier og gav råd om kodning.
Modellen kan f.eks. analysere et billede af en fremmedsproget menu, oversætte den og give kulturelle indsigter og anbefalinger.
OpenAI har netop demonstreret sin nye GPT-4o-model, der udfører oversættelser i realtid 🤯. pic.twitter.com/Cl0gp9v3kN
- Tom Warren (@tomwarren) 13. maj 2024
Den kan også genkende følelser gennem vejrtrækning, ansigtsudtryk og andre visuelle signaler.
Klip af realtidssamtale med GPT4-o, der kører på ChatGPT app
NYHED: I stedet for bare at omdanne TALE til tekst kan GPT-4o også forstå og mærke andre funktioner i lyd, som f.eks. vejrtrækning og følelser. Jeg er ikke sikker på, hvordan dette kommer til udtryk i modelresponsen.#openai https://t.co/CpvCkjI0iA pic.twitter.com/24C8rhMFAw
- Andrew Gao (@itsandrewgao) 13. maj 2024
GPT-4o's evner til at genkende følelser vil nok vække opsigt, når støvet har lagt sig.
Følelsesmæssigt kognitiv AI kan udvikle potentielt skadelige brugsscenarier, der er afhængige af menneskelig efterligning, såsom deep fakes, social engineering osv.
En anden imponerende evne, som teamet demonstrerede, er kodningshjælp i realtid via stemmen.
Med GPT-4o/ChatGPT desktop-app, kan du få en kodningsmakker (sort cirkel), der taler til dig og ser, hvad du ser!#openai Meddelelsestråd! https://t.co/CpvCkjI0iA pic.twitter.com/Tfh81mBHCv
- Andrew Gao (@itsandrewgao) 13. maj 2024
I en demo så man endda to eksemplarer af modellen, der sang til hinanden.
Denne demo af to GPT-4o'er, der synger til hinanden, er noget af det vildeste, jeg nogensinde har set. pic.twitter.com/UXFfbIpuF6
- Matt Shumer (@mattshumer_) 13. maj 2024
Det generelle indhold af OpenAI's demoer er, at virksomheden sigter mod at gøre AI-multimodalitet virkelig nyttig i hverdagsscenarier og udfordre værktøjer som Google Translate i processen.
En anden vigtig pointe er, at disse demoer er virkelighedstro. OpenAI påpegede, at "Alle videoer på denne side er i 1x realtid", hvilket muligvis hentyder til Google, som redigerede kraftigt i sin Gemini Demovideo til at overdrive sine multimodale færdigheder.
Med GPT-4o kan multimodale AI-applikationer gå fra at være en nyhed begravet dybt inde i AI-grænseflader til noget, som almindelige brugere kan interagere med dagligt.
Selv om demoen var imponerende, er det stadig en demo, og resultater fra gennemsnitlige brugere "i naturen" vil virkelig afsløre, hvor kompetente disse funktioner er.
Bortset fra stemmebehandling og -oversættelse i realtid, som fylder meget i rampelyset, er det faktum, at OpenAI er at gøre denne nye model fri for begrænsninger er massiv.
Welvom GPT-4o *bare* er en lidt bedre GPT-4, vil den udstyre alle med en AI-model i topkvalitet og dermed skabe lige vilkår for millioner af mennesker verden over.
Du kan se annonceringen og demoen nedenfor:
Alt, hvad vi ved om GPT-4o
Her er en oversigt over alt, hvad vi ved om GPT-4o indtil videre:
- Multimodal integration: GPT-4o behandler og genererer hurtigt tekst-, lyd- og billeddata, hvilket muliggør dynamisk interaktion på tværs af forskellige formater.
- Svar i realtid: Modellen har imponerende reaktionstider, der kan sammenlignes med menneskelige reaktionshastigheder i samtaler, med lydreaktioner, der starter på så lidt som 232 millisekunder.
- Sprog- og kodningskompetencer: GPT-4o matcher GPT-4 Turbos præstation i engelske og kodningsopgaver og overgår den i ikke-engelsk tekstbehandling.
- Audiovisuelle forbedringer: Sammenlignet med tidligere modeller viser GPT-4o en overlegen forståelse af syns- og lydopgaver, hvilket forbedrer dens evne til at interagere med multimedieindhold.
- Naturlige interaktioner: Demonstrationerne omfattede to GPT-4'ere, der sang en sang, hjalp med interviewforberedelse, spillede spil som sten, saks og papir og endda skabte humor med far-jokes.
- Reducerede omkostninger for udviklere: OpenAI har sænket prisen for udviklere, der bruger GPT-4o, med 50% og fordoblet behandlingshastigheden.
- Benchmark-præstation: GPT-4o benchmarks udmærker sig i flersprogede, auditive og visuelle opgaver, selv om uafhængige tests bekræfter, at den er bagud i forhold til GPT-4 i forbindelse med kodning, matematik og andre 'svære opgaver'.
GPT-4o er en betydningsfuld meddelelse for OpenAI, particularly as its the most powerful free closed model available by a sizeable margin.
Det kan signalere en æra med praktisk, nyttig AI-multimodalitet, som folk begynder at engagere sig i i massevis.
Det ville være en kæmpe milepæl både for virksomheden og for den generative AI-industri som helhed.