OpenAI demonstrerte nettopp sin nye flaggskipmodell, GPT-4o, med utrolige talegjenkjennings- og oversettelsesevner.
Som administrerende direktør Sam Altman selv uttalte, visste vi OpenAI's siste "våroppdatering" var ikke relatert til GPT-5 eller AI-søk.
Men kl. 10.00 i dag ble hundretusener med på den direktesendte presentasjonen av den nye modellen da Chief Technology Officer (CTO) Mira Murati demonstrerte fordelene den har i forhold til forgjengeren GPT-4.
Viktige kunngjøringer fra demosesjonen inkluderer
- GPT-4o (o-en står for omni) har til hensikt å erstatte GPT-4, med OpenAI og kaller det sin nye flaggskipmodell.
- Selv om det i stor grad ligner på GPT-4, GPT-4o tilbyr overlegen flerspråklig og audiovisuell prosessering. Den kan behandle og oversette lyd i tilnærmet sanntid. Senere tester viste at GPT-4o er dårligere enn GPT-4 på noen "vanskelige oppgaver".
- OpenAI gjør GPT-4o fritt tilgjengelig, med begrensninger. Pro-brukere får fortsatt prioritet og et høyere meldingstak.
- OpenAI lanserer også en desktopversjon av ChatGPT, i første omgang kun for Mac, som lanseres umiddelbart.
- Egendefinerte GPT-er vil også bli tilgjengelige for gratisbrukere.
- GPT-4o og stemmefunksjonene vil rulles ut sakte i løpet av de kommende ukene og månedene.
GPT-4o's lydoversettelse i sanntid
Overskriften som har fått alle til å snakke om GPT-4o, er den imponerende lydbehandlingen og -oversettelsen, som fungerer i tilnærmet sanntid.
Demonstrasjoner viste at den kunstige intelligensen engasjerte seg i bemerkelsesverdig naturlige stemmesamtaler, tilbød umiddelbare oversettelser, fortalte historier og ga råd om koding.
Modellen kan for eksempel analysere et bilde av en fremmedspråklig meny, oversette den og gi kulturell innsikt og anbefalinger.
OpenAI har nettopp demonstrert sin nye GPT-4o-modell som gjør oversettelser i sanntid 🤯 pic.twitter.com/Cl0gp9v3kN
- Tom Warren (@tomwarren) 13. mai 2024
Den kan også gjenkjenne følelser gjennom pust, ansiktsuttrykk og andre visuelle signaler.
Klipp av sanntidssamtale med GPT4-o som kjører på ChatGPT app
NYTT: I stedet for bare å omdanne SPEECH til tekst, kan GPT-4o også forstå og merke andre funksjoner i lyd, som PUSTING og EMOTION. Jeg er ikke sikker på hvordan dette kommer til uttrykk i modellresponsen.#openai https://t.co/CpvCkjI0iA pic.twitter.com/24C8rhMFAw
- Andrew Gao (@itsandrewgao) 13. mai 2024
GPT-4os evne til å gjenkjenne følelser vil trolig skape kontroverser når støvet har lagt seg.
Emosjonelt kognitiv AI kan utvikle potensielt skadelige bruksområder som baserer seg på etterligning av mennesker, for eksempel "deep fakes", sosial manipulering osv.
En annen imponerende ferdighet som teamet demonstrerte, er kodingsassistanse i sanntid via tale.
Med GPT-4o/ChatGPT desktop-appen kan du ha en kodekompis (svart sirkel) som snakker med deg og ser det du ser!#openai kunngjøringstråd! https://t.co/CpvCkjI0iA pic.twitter.com/Tfh81mBHCv
- Andrew Gao (@itsandrewgao) 13. mai 2024
I en demo så man til og med to tilfeller av modellen som sang til hverandre.
Denne demoen av to GPT-4o'er som synger til hverandre er noe av det sprøeste jeg noensinne har sett. pic.twitter.com/UXFfbIpuF6
- Matt Shumer (@mattshumer_) 13. mai 2024
Det generelle innholdet i OpenAI's demoer er at selskapet har som mål å gjøre AI-multimodalitet virkelig nyttig i hverdagsscenarioer, og utfordre verktøy som Google Translate i prosessen.
Et annet viktig poeng er at disse demoene er virkelighetstro. OpenAI påpekte: "Alle videoene på denne siden er i 1x sanntid", muligens en hentydning til Google, som sterkt redigerte sin Gemini demovideo til å overdrive sine multimodale ferdigheter.
Med GPT-4o kan multimodale AI-applikasjoner gå fra å være en nyhet begravd dypt inne i AI-grensesnitt til å bli noe vanlige brukere kan samhandle med daglig.
Selv om demoen var imponerende, er det fortsatt en demo, og resultatene fra gjennomsnittlige brukere "i naturen" vil virkelig avsløre hvor kompetente disse funksjonene er.
Bortsett fra talebehandling og oversettelse i sanntid, som er i fokus, er det faktum at OpenAI er å gjøre denne nye modellen fri for begrensninger er enorm.
Welv om GPT-4o *bare* er en litt bedre GPT-4, vil den utstyre hvem som helst med en AI-modell av topp kvalitet, noe som gir like konkurransevilkår for millioner av mennesker over hele verden.
Du kan se kunngjøringen og demoen nedenfor:
Alt vi vet om GPT-4o
Her er en oversikt over alt vi vet om GPT-4o så langt:
- Multimodal integrering: GPT-4o behandler og genererer tekst-, lyd- og bildedata raskt, noe som muliggjør dynamisk interaksjon på tvers av ulike formater.
- Svar i sanntid: Modellen kan skilte med imponerende responstider, som kan sammenlignes med menneskers reaksjonshastigheter i samtaler, med lydresponser som starter på så lite som 232 millisekunder.
- Språk- og kodingskompetanse: GPT-4o matcher ytelsen til GPT-4 Turbo i engelsk- og kodingsoppgaver og overgår den i behandling av ikke-engelsk tekst.
- Audiovisuelle forbedringer: Sammenlignet med tidligere modeller viser GPT-4o en overlegen forståelse av syns- og lydoppgaver, noe som forbedrer dens evne til å samhandle med multimediainnhold.
- Naturlig interaksjon: To GPT-4oer demonstrerte blant annet en sang, hjalp til med intervjuforberedelser, spilte spill som stein, saks, papir og til og med skapte humor med pappavitser.
- Reduserte kostnader for utviklere: OpenAI har redusert kostnadene for utviklere som bruker GPT-4o med 50% og doblet prosesseringshastigheten.
- Benchmark-ytelse: GPT-4o referanseverdier utmerker seg i flerspråklige, auditive og visuelle oppgaver, selv om uavhengige tester bekrefter at den ligger bak GPT-4 på enkelte kodings-, matematikk- og andre "vanskelige oppgaver".
GPT-4o er en viktig kunngjøring for OpenAI, particularly as its the most powerful free closed model available by a sizeable margin.
Det kan være et tegn på en æra med praktisk, nyttig AI-multimodalitet som folk begynner å ta i bruk i massevis.
Det ville være en enorm milepæl både for selskapet og for den generative AI-industrien som helhet.