OpenAI presenterar Realtime API och andra funktioner för utvecklare

2 oktober 2024

  • OpenAI presenterade flera nya funktioner för utvecklare som använder dess API
  • Realtime API kommer att driva appar med låg latens och röstinteraktioner som liknar Advanced Voice Mode
  • Andra funktioner gör det möjligt att göra billigare API-anrop, finjustera visionen och ställa in mindre modeller med större

OpenAI släppte inga nya modeller vid sitt Dev Day-evenemang, men nya API-funktioner kommer att locka utvecklare som vill använda sina modeller för att bygga kraftfulla appar.

OpenAI har haft några tuffa veckor med sin CTO, Mira Murati, och andra chefsforskare som ansluter sig till den ständigt växande listan över tidigare anställda. Företaget är under allt större press från andra flaggskeppsmodeller, inklusive modeller med öppen källkod som erbjuder utvecklare billigare och mycket kapabla alternativ.

De nya funktionerna som OpenAI presenterade var Realtime API (i beta), finjustering av visionen och effektivitetshöjande verktyg som snabbcaching och modelldestillation.

API i realtid

Realtids-API:t är den mest spännande nya funktionen, om än i betaversion. Det gör det möjligt för utvecklare att bygga tal-till-tal-upplevelser med låg latens i sina appar utan att använda separata modeller för taligenkänning och text-till-tal-konvertering.

Med detta API kan utvecklare nu skapa appar som möjliggör realtidskonversationer med AI, till exempel röstassistenter eller språkinlärningsverktyg, allt genom ett enda API-anrop. Det är inte riktigt den sömlösa upplevelse som GPT-4os Advanced Voice Mode erbjuder, men det är nära.

Det är dock inte billigt, med cirka $0,06 per minut för ljudinmatning och $0,24 per minut för ljudutmatning.

Finjustering av visionen

Med hjälp av finjustering av bilder i API:et kan utvecklare förbättra sina modellers förmåga att förstå och interagera med bilder. Genom att finjustera GPT-4o med hjälp av bilder kan utvecklare skapa applikationer som utmärker sig i uppgifter som visuell sökning eller objektdetektering.

Den här funktionen utnyttjas redan av företag som Grab, som förbättrade noggrannheten i sin karttjänst genom att finjustera modellen för att känna igen trafikskyltar från bilder på gatunivå.

OpenAI gav också ett exempel på hur GPT-4o kunde generera ytterligare innehåll för en webbplats efter att ha finjusterats för att stilistiskt matcha webbplatsens befintliga innehåll.

Cachelagring av uppmaningar

För att förbättra kostnadseffektiviteten introducerade OpenAI prompt caching, ett verktyg som minskar kostnaden och fördröjningen för ofta använda API-anrop. Genom att återanvända nyligen bearbetade inmatningar kan utvecklare sänka kostnaderna med 50% och minska svarstiderna. Denna funktion är särskilt användbar för applikationer som kräver långa konversationer eller upprepade sammanhang, som chatbots och kundtjänstverktyg.

Genom att använda cachade indata kan man spara upp till 50% i kostnader för indatatoken.

Prisjämförelse av cachade och icke-cachade input tokens för OpenAI:s API. Källa: OpenAI OpenAI

Modell destillation

Modelldestillation gör det möjligt för utvecklare att finjustera mindre, mer kostnadseffektiva modeller med hjälp av resultaten från större, mer kapabla modeller. Det här är en stor förändring eftersom destillering tidigare krävde flera separata steg och verktyg, vilket gjorde det till en tidskrävande och felbenägen process.

Innan OpenAI:s integrerade funktion för modelldestillation var utvecklarna tvungna att manuellt orkestrera olika delar av processen, som att generera data från större modeller, förbereda finjusterade dataset och mäta prestanda med olika verktyg.

Utvecklare kan nu automatiskt lagra utdatapar från större modeller som GPT-4o och använda dessa par för att finjustera mindre modeller som GPT-4o-mini. Hela processen med att skapa dataset, finjustera och utvärdera kan göras på ett mer strukturerat, automatiserat och effektivt sätt.

Den förenklade utvecklingsprocessen, den lägre latensen och de minskade kostnaderna kommer att göra OpenAI:s GPT-4o-modell till ett attraktivt alternativ för utvecklare som snabbt vill kunna distribuera kraftfulla appar. Det ska bli intressant att se vilka applikationer de multimodala funktionerna möjliggör.

Bli en del av framtiden


PRENUMERERA IDAG

Tydlig, kortfattad och heltäckande. Få grepp om AI-utvecklingen med DagligaAI

Eugene van der Watt

Eugene kommer från en bakgrund som elektronikingenjör och älskar allt som har med teknik att göra. När han tar en paus från att konsumera AI-nyheter hittar du honom vid snookerbordet.

×

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI

Registrera dig för vårt veckovisa nyhetsbrev och få exklusiv tillgång till DailyAI:s senaste e-bok: "Mastering AI Tools: Din 2024-guide till förbättrad produktivitet".

*Genom att prenumerera på vårt nyhetsbrev accepterar du vår Integritetspolicy och våra Villkor och anvisningar