OpenAI afslører Realtime API og andre funktioner til udviklere

2. oktober 2024

  • OpenAI annoncerede flere nye funktioner til udviklere, der bruger dets API
  • Realtime API'en vil drive apps med lav latenstid og stemmeinteraktioner i stil med Advanced Voice Mode.
  • Andre funktioner muliggør billigere API-kald, finjustering af synet og afstemning af mindre modeller med større.

OpenAI frigav ikke nogen nye modeller på sit Dev Day-arrangement, men nye API-funktioner vil begejstre udviklere, som vil bruge deres modeller til at bygge stærke apps.

OpenAI har haft et par hårde uger, hvor virksomhedens tekniske direktør, Mira Murati, og andre ledende forskere har sluttet sig til den stadigt voksende liste over tidligere ansatte. Virksomheden er under stigende pres fra andre flagskibsmodeller, herunder open source-modeller, som tilbyder udviklere billigere og meget dygtige muligheder.

De nye funktioner, som OpenAI afslørede, var Realtime API (i beta), finjustering af synet og effektivitetsfremmende værktøjer som hurtig caching og modeldestillation.

API i realtid

Realtime API'en er den mest spændende nye funktion, omend den er i beta. Den gør det muligt for udviklere at bygge tale-til-tale-oplevelser med lav latenstid i deres apps uden at bruge separate modeller til talegenkendelse og tekst-til-tale-konvertering.

Med denne API kan udviklere nu skabe apps, der giver mulighed for realtidssamtaler med AI, f.eks. stemmeassistenter eller sprogindlæringsværktøjer, alt sammen gennem et enkelt API-opkald. Det er ikke helt den sømløse oplevelse, som GPT-4o's Advanced Voice Mode tilbyder, men det er tæt på.

Det er dog ikke billigt, ca. $0,06 pr. minut af lydinput og $0,24 pr. minut af lydoutput.

Finjustering af synet

Visuel finjustering i API'en giver udviklere mulighed for at forbedre deres modellers evne til at forstå og interagere med billeder. Ved at finjustere GPT-4o ved hjælp af billeder kan udviklere skabe applikationer, der udmærker sig i opgaver som visuel søgning eller objektregistrering.

Denne funktion udnyttes allerede af virksomheder som Grab, der forbedrede nøjagtigheden af sin kortlægningstjeneste ved at finjustere modellen til at genkende trafikskilte fra billeder på gadeniveau.

OpenAI gav også et eksempel på, hvordan GPT-4o kunne generere yderligere indhold til et websted efter at være blevet finjusteret til stilistisk at matche webstedets eksisterende indhold.

Prompt caching

For at forbedre omkostningseffektiviteten introducerede OpenAI prompt caching, et værktøj, der reducerer omkostningerne og ventetiden for ofte anvendte API-opkald. Ved at genbruge nyligt behandlede input kan udviklere reducere omkostningerne med 50% og reducere svartiderne. Denne funktion er især nyttig for applikationer, der kræver lange samtaler eller gentagne kontekster, som chatbots og kundeserviceværktøjer.

Ved at bruge cachelagrede input kan man spare op til 50% i omkostninger til input-tokens.

Prissammenligning af cachelagrede og ikke-cachelagrede input-tokens til OpenAI's API. Kilde: OpenAI: OpenAI

Model destillation

Modeldestillation giver udviklere mulighed for at finjustere mindre, mere omkostningseffektive modeller ved hjælp af output fra større, mere effektive modeller. Dette er en game-changer, fordi destillation tidligere krævede flere adskilte trin og værktøjer, hvilket gjorde det til en tidskrævende og fejlbehæftet proces.

Før OpenAI's integrerede modeldestillationsfunktion måtte udviklere manuelt orkestrere forskellige dele af processen, som f.eks. at generere data fra større modeller, forberede finjusterende datasæt og måle ydeevne med forskellige værktøjer.

Udviklere kan nu automatisk gemme outputpar fra større modeller som GPT-4o og bruge disse par til at finjustere mindre modeller som GPT-4o-mini. Hele processen med oprettelse af datasæt, finjustering og evaluering kan udføres på en mere struktureret, automatiseret og effektiv måde.

Den strømlinede udviklerproces, den lavere ventetid og de reducerede omkostninger vil gøre OpenAI's GPT-4o-model attraktiv for udviklere, der ønsker at implementere kraftfulde apps hurtigt. Det bliver interessant at se, hvilke applikationer de multimodale funktioner muliggør.

Deltag i fremtiden


TILMELD DIG I DAG

Klar, kortfattet, omfattende. Få styr på AI-udviklingen med DailyAI

Eugene van der Watt

Eugene har en baggrund som elektronikingeniør og elsker alt, hvad der har med teknologi at gøre. Når han tager en pause fra at læse AI-nyheder, kan du finde ham ved snookerbordet.

×

GRATIS PDF EKSKLUSIVT
Vær på forkant med DailyAI

Tilmeld dig vores ugentlige nyhedsbrev og få eksklusiv adgang til DailyAI's seneste e-bog: 'Mastering AI Tools: Din 2024-guide til forbedret produktivitet'.

*Ved at tilmelde dig vores nyhedsbrev accepterer du vores Politik for beskyttelse af personlige oplysninger og vores Vilkår og betingelser