OpenAI svela l'API Realtime e altre funzionalità per gli sviluppatori

2 ottobre 2024

  • OpenAI ha annunciato diverse nuove funzionalità per gli sviluppatori che utilizzano le sue API.
  • L'API Realtime consentirà di utilizzare applicazioni a bassa latenza e interazioni vocali simili all'Advanced Voice Mode.
  • Altre caratteristiche consentono chiamate API più economiche, la messa a punto della visione e la sintonizzazione di modelli più piccoli con modelli più grandi.

OpenAI non ha rilasciato nuovi modelli durante l'evento Dev Day, ma le nuove funzionalità dell'API entusiasmeranno gli sviluppatori che desiderano utilizzare i loro modelli per creare applicazioni potenti.

OpenAI ha avuto settimane difficili: il suo CTO, Mira Murati, e altri ricercatori si sono aggiunti alla lista sempre più lunga degli ex dipendenti. L'azienda è sottoposta a una crescente pressione da parte di altri modelli di punta, compresi quelli open-source che offrono agli sviluppatori opzioni più economiche e altamente capaci.

Le novità presentate da OpenAI sono state l'API Realtime (in versione beta), la messa a punto della visione e strumenti per aumentare l'efficienza come il prompt caching e la distillazione dei modelli.

API in tempo reale

L'API Realtime è la novità più interessante, anche se in versione beta. Consente agli sviluppatori di creare esperienze speech-to-speech a bassa latenza nelle loro applicazioni senza utilizzare modelli separati per il riconoscimento vocale e la conversione text-to-speech.

Grazie a questa API, gli sviluppatori possono creare applicazioni che consentono conversazioni in tempo reale con l'intelligenza artificiale, come gli assistenti vocali o gli strumenti di apprendimento linguistico, il tutto attraverso un'unica chiamata API. Non si tratta di un'esperienza perfetta come quella offerta dalla modalità vocale avanzata di GPT-4o, ma ci si avvicina.

Tuttavia, non è economico: costa circa $0,06 al minuto di ingresso audio e $0,24 al minuto di uscita audio.

Messa a punto della visione

La messa a punto della visione all'interno dell'API consente agli sviluppatori di migliorare la capacità dei loro modelli di comprendere e interagire con le immagini. Grazie alla messa a punto di GPT-4o utilizzando le immagini, gli sviluppatori possono creare applicazioni che eccellono in attività come la ricerca visiva o il rilevamento di oggetti.

Questa funzione è già stata sfruttata da aziende come Grab, che ha migliorato l'accuratezza del suo servizio di mappatura perfezionando il modello per riconoscere i segnali stradali dalle immagini a livello stradale.

OpenAI ha anche fornito un esempio di come GPT-4o possa generare contenuti aggiuntivi per un sito web dopo essere stato messo a punto per adattarsi stilisticamente ai contenuti esistenti del sito.

Caching del prompt

Per migliorare l'efficienza dei costi, OpenAI ha introdotto il prompt caching, uno strumento che riduce i costi e la latenza delle chiamate API utilizzate di frequente. Riutilizzando gli input elaborati di recente, gli sviluppatori possono tagliare i costi di 50% e ridurre i tempi di risposta. Questa funzione è particolarmente utile per le applicazioni che richiedono lunghe conversazioni o contesti ripetuti, come i chatbot e gli strumenti di assistenza clienti.

L'utilizzo di input memorizzati nella cache potrebbe far risparmiare fino a 50% sui costi dei token di input.

Confronto dei prezzi dei token di ingresso in cache e non in cache per l'API di OpenAI. Fonte: OpenAI

Modello di distillazione

La distillazione dei modelli consente agli sviluppatori di mettere a punto modelli più piccoli e più efficienti dal punto di vista dei costi, utilizzando i risultati di modelli più grandi e più capaci. Si tratta di una novità assoluta, perché in precedenza la distillazione richiedeva più fasi e strumenti scollegati, rendendo il processo lungo e soggetto a errori.

Prima della funzione integrata Model Distillation di OpenAI, gli sviluppatori dovevano orchestrare manualmente diverse parti del processo, come la generazione di dati da modelli più grandi, la preparazione di set di dati per la messa a punto e la misurazione delle prestazioni con vari strumenti.

Gli sviluppatori possono ora memorizzare automaticamente le coppie di risultati di modelli più grandi, come GPT-4o, e utilizzarle per mettere a punto modelli più piccoli, come GPT-4o-mini. L'intero processo di creazione del set di dati, messa a punto e valutazione può essere eseguito in modo più strutturato, automatizzato ed efficiente.

La semplificazione del processo di sviluppo, la minore latenza e i costi ridotti renderanno il modello GPT-4o di OpenAI una prospettiva interessante per gli sviluppatori che desiderano distribuire rapidamente applicazioni potenti. Sarà interessante vedere quali applicazioni saranno possibili grazie alle funzionalità multimodali.

Partecipa al futuro


ISCRIVITI OGGI

Chiaro, conciso, completo. Per conoscere gli sviluppi dell'IA con DailyAI

Eugene van der Watt

Eugene proviene da un background di ingegneria elettronica e ama tutto ciò che è tecnologico. Quando si prende una pausa dal consumo di notizie sull'intelligenza artificiale, lo si può trovare al tavolo da biliardo.

×

PDF GRATUITO ESCLUSIVO
Rimanere all'avanguardia con DailyAI

Iscriviti alla nostra newsletter settimanale e ricevi l'accesso esclusivo all'ultimo eBook di DailyAI: 'Mastering AI Tools: La tua guida 2024 per una maggiore produttività".

*Iscrivendosi alla nostra newsletter si accetta la nostra Informativa sulla privacy e il nostro Termini e condizioni