Alt du trenger å vite om OpenAIs nye flaggskipmodell, GPT-4o

13. mai 2024

  • OpenAI kunngjorde sin nye multimodale flaggskipmodell kalt GPT-4o
  • O-en står for "omni", noe som betegner denne modellens utmerkede audiovisuelle ytelse
  • GPT-4o kan utføre imponerende taleoversettelse i sanntid
OpenAI

OpenAI demonstrerte nettopp sin nye flaggskipmodell, GPT-4o, med utrolige talegjenkjennings- og oversettelsesevner. 

Som administrerende direktør Sam Altman selv uttalte, visste vi OpenAI's siste "våroppdatering" var ikke relatert til GPT-5 eller AI-søk.

Men kl. 10.00 i dag ble hundretusener med på den direktesendte presentasjonen av den nye modellen da Chief Technology Officer (CTO) Mira Murati demonstrerte fordelene den har i forhold til forgjengeren GPT-4.

Viktige kunngjøringer fra demosesjonen inkluderer

  • GPT-4o (o-en står for omni) har til hensikt å erstatte GPT-4, med OpenAI og kaller det sin nye flaggskipmodell. 
  • Selv om det i stor grad ligner på GPT-4, GPT-4o tilbyr overlegen flerspråklig og audiovisuell prosessering. Den kan behandle og oversette lyd i tilnærmet sanntid. Senere tester viste at GPT-4o er dårligere enn GPT-4 på noen "vanskelige oppgaver".
  • OpenAI gjør GPT-4o fritt tilgjengelig, med begrensninger. Pro-brukere får fortsatt prioritet og et høyere meldingstak.
  • OpenAI lanserer også en desktopversjon av ChatGPT, i første omgang kun for Mac, som lanseres umiddelbart.
  • Egendefinerte GPT-er vil også bli tilgjengelige for gratisbrukere.
  • GPT-4o og stemmefunksjonene vil rulles ut sakte i løpet av de kommende ukene og månedene.

GPT-4o's lydoversettelse i sanntid

Overskriften som har fått alle til å snakke om GPT-4o, er den imponerende lydbehandlingen og -oversettelsen, som fungerer i tilnærmet sanntid. 

Demonstrasjoner viste at den kunstige intelligensen engasjerte seg i bemerkelsesverdig naturlige stemmesamtaler, tilbød umiddelbare oversettelser, fortalte historier og ga råd om koding. 

Modellen kan for eksempel analysere et bilde av en fremmedspråklig meny, oversette den og gi kulturell innsikt og anbefalinger. 

Den kan også gjenkjenne følelser gjennom pust, ansiktsuttrykk og andre visuelle signaler. 

GPT-4os evne til å gjenkjenne følelser vil trolig skape kontroverser når støvet har lagt seg.

Emosjonelt kognitiv AI kan utvikle potensielt skadelige bruksområder som baserer seg på etterligning av mennesker, for eksempel "deep fakes", sosial manipulering osv. 

En annen imponerende ferdighet som teamet demonstrerte, er kodingsassistanse i sanntid via tale.

I en demo så man til og med to tilfeller av modellen som sang til hverandre.

Det generelle innholdet i OpenAI's demoer er at selskapet har som mål å gjøre AI-multimodalitet virkelig nyttig i hverdagsscenarioer, og utfordre verktøy som Google Translate i prosessen. 

Et annet viktig poeng er at disse demoene er virkelighetstro. OpenAI påpekte: "Alle videoene på denne siden er i 1x sanntid", muligens en hentydning til Google, som sterkt redigerte sin Gemini demovideo til å overdrive sine multimodale ferdigheter.

Med GPT-4o kan multimodale AI-applikasjoner gå fra å være en nyhet begravd dypt inne i AI-grensesnitt til å bli noe vanlige brukere kan samhandle med daglig.

Selv om demoen var imponerende, er det fortsatt en demo, og resultatene fra gjennomsnittlige brukere "i naturen" vil virkelig avsløre hvor kompetente disse funksjonene er.

Bortsett fra talebehandling og oversettelse i sanntid, som er i fokus, er det faktum at OpenAI er å gjøre denne nye modellen fri for begrensninger er enorm. 

Welv om GPT-4o *bare* er en litt bedre GPT-4, vil den utstyre hvem som helst med en AI-modell av topp kvalitet, noe som gir like konkurransevilkår for millioner av mennesker over hele verden.

Du kan se kunngjøringen og demoen nedenfor:

Alt vi vet om GPT-4o

Her er en oversikt over alt vi vet om GPT-4o så langt:

  • Multimodal integrering: GPT-4o behandler og genererer tekst-, lyd- og bildedata raskt, noe som muliggjør dynamisk interaksjon på tvers av ulike formater. 
  • Svar i sanntid: Modellen kan skilte med imponerende responstider, som kan sammenlignes med menneskers reaksjonshastigheter i samtaler, med lydresponser som starter på så lite som 232 millisekunder.
  • Språk- og kodingskompetanse: GPT-4o matcher ytelsen til GPT-4 Turbo i engelsk- og kodingsoppgaver og overgår den i behandling av ikke-engelsk tekst.
  • Audiovisuelle forbedringer: Sammenlignet med tidligere modeller viser GPT-4o en overlegen forståelse av syns- og lydoppgaver, noe som forbedrer dens evne til å samhandle med multimediainnhold.
  • Naturlig interaksjon: To GPT-4oer demonstrerte blant annet en sang, hjalp til med intervjuforberedelser, spilte spill som stein, saks, papir og til og med skapte humor med pappavitser.
  • Reduserte kostnader for utviklere: OpenAI har redusert kostnadene for utviklere som bruker GPT-4o med 50% og doblet prosesseringshastigheten.
  • Benchmark-ytelse: GPT-4o referanseverdier utmerker seg i flerspråklige, auditive og visuelle oppgaver, selv om uavhengige tester bekrefter at den ligger bak GPT-4 på enkelte kodings-, matematikk- og andre "vanskelige oppgaver". 

GPT-4o er en viktig kunngjøring for OpenAI, particularly as its the most powerful free closed model available by a sizeable margin.

Det kan være et tegn på en æra med praktisk, nyttig AI-multimodalitet som folk begynner å ta i bruk i massevis.

Det ville være en enorm milepæl både for selskapet og for den generative AI-industrien som helhet.

Bli med i fremtiden


ABONNER I DAG

Tydelig, kortfattet og omfattende. Få et grep om AI-utviklingen med DagligAI

Sam Jeans

Sam er en vitenskaps- og teknologiskribent som har jobbet i ulike oppstartsbedrifter innen kunstig intelligens. Når han ikke skriver, leser han medisinske tidsskrifter eller graver seg gjennom esker med vinylplater.

×

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI

Meld deg på vårt ukentlige nyhetsbrev og få eksklusiv tilgang til DailyAIs nyeste e-bok: "Mastering AI Tools: Din 2024-guide til økt produktivitet".

*Ved å abonnere på vårt nyhetsbrev aksepterer du vår Retningslinjer for personvern og vår Vilkår og betingelser