Tutto quello che c'è da sapere sul nuovo modello di punta di OpenAI, il GPT-4o

13 maggio 2024

  • OpenAI ha annunciato il suo nuovo modello multimodale di punta chiamato GPT-4o
  • La O sta per "omni", a indicare le eccellenti prestazioni audiovisive di questo modello.
  • Il GPT-4o è in grado di eseguire traduzioni vocali in tempo reale davvero impressionanti
OpenAI

OpenAI ha appena presentato il suo nuovo modello di punta, il GPT-4o, con incredibili capacità di riconoscimento vocale e di traduzione. 

Come amministratore delegato Sam Altman stesso ha dichiarato, sapevamo OpenAIL'ultimo "aggiornamento di primavera" non era correlato a GPT-5 o ricerca AI.

Ma alle 10.00 PT di oggi, centinaia di migliaia di persone si sono unite alla presentazione in live-streaming del nuovo modello, mentre il Chief Technology Officer (CTO) Mira Murati ne dimostrava i vantaggi rispetto al suo predecessore, il GPT-4.

I principali annunci della sessione dimostrativa includono:

  • GPT-4o (la o sta per omni) intende sostituire il GPT-4, con OpenAI che lo definisce il suo nuovo modello fondante di punta. 
  • Sebbene sia ampiamente simile a GPT-4, GPT-4o offre un'elaborazione multilingue e audiovisiva di qualità superiore. È in grado di elaborare e tradurre l'audio quasi in tempo reale. Test successivi hanno dimostrato che il GPT-4o è peggiore del GPT-4 in alcuni "compiti difficili".
  • OpenAI sta facendo GPT-4o liberamente disponibile, con dei limiti. Gli utenti Pro hanno comunque la priorità e un tetto massimo di messaggi.
  • OpenAI sta rilasciando anche una versione desktop di ChatGPTinizialmente solo per Mac, che viene distribuito immediatamente.
  • I GPT personalizzati diventeranno accessibili anche agli utenti liberi.
  • GPT-4o e le sue funzioni vocali si diffonderanno lentamente nelle prossime settimane e mesi.

GPT-4otraduzione audio in tempo reale

Il titolo che ha fatto parlare di sé è l'impressionante elaborazione e traduzione audio del GPT-4o, che opera quasi in tempo reale. 

Le dimostrazioni hanno mostrato l'IA impegnata in conversazioni vocali straordinariamente naturali, offrendo traduzioni immediate, raccontando storie e fornendo consigli di codifica. 

Ad esempio, il modello può analizzare un'immagine di un menu in lingua straniera, tradurla e fornire approfondimenti e raccomandazioni culturali. 

È in grado di riconoscere le emozioni anche attraverso la respirazione, le espressioni e altri segnali visivi. 

Le capacità di riconoscimento emotivo del GPT-4o attireranno probabilmente delle polemiche una volta che il polverone si sarà posato.

L'IA emotivamente consapevole potrebbe evolvere in casi d'uso potenzialmente nefasti che si basano sull'imitazione umana, come i falsi profondi, l'ingegneria sociale, ecc. 

Un'altra abilità impressionante dimostrata dal team è l'assistenza alla codifica in tempo reale fornita a voce.

Una dimostrazione ha visto addirittura due istanze del modello che cantavano tra loro.

Il succo generale di OpenAIL'obiettivo dell'azienda è quello di rendere la multimodalità dell'intelligenza artificiale veramente utile negli scenari quotidiani, sfidando strumenti come Google Translate. 

Un altro punto fondamentale è che queste demo sono fedeli alla realtà. OpenAI ha sottolineato: "Tutti i video di questa pagina sono in tempo reale", forse alludendo a Google, che ha modificato pesantemente il suo Gemini video dimostrativo per esaltare le sue capacità multimodali.

Con il GPT-4o, le applicazioni AI multimodali potrebbero passare da una novità sepolta nelle interfacce AI a qualcosa con cui gli utenti medi possono interagire quotidianamente.

Anche se la demo è stata impressionante, si tratta pur sempre di una demo e i risultati ottenuti dagli utenti medi "in natura" riveleranno veramente quanto siano competenti queste funzioni.

A parte l'elaborazione e la traduzione vocale in tempo reale, che sta conquistando le luci della ribalta, il fatto che OpenAI è rendere questo nuovo modello libero da vincoli è enorme. 

Wl GPT-4o è *solo* un GPT-4 leggermente migliore, ma consentirà a chiunque di disporre di un modello AI di alta qualità, livellando il campo di gioco per milioni di persone in tutto il mondo.

Potete vedere l'annuncio e la demo qui sotto:

Tutto quello che sappiamo sul GPT-4o

Ecco un riepilogo di tutto ciò che sappiamo finora sul GPT-4o:

  • Integrazione multimodale: GPT-4o elabora e genera rapidamente dati di testo, audio e immagini, consentendo interazioni dinamiche tra diversi formati. 
  • Risposte in tempo reale: Il modello vanta tempi di risposta impressionanti, paragonabili alla velocità di reazione umana durante una conversazione, con risposte audio che iniziano in appena 232 millisecondi.
  • Capacità linguistiche e di codifica: GPT-4o eguaglia le prestazioni di GPT-4 Turbo nei compiti in inglese e di codifica e lo supera nell'elaborazione di testi non in inglese.
  • Miglioramenti audiovisivi: Rispetto ai modelli precedenti, il GPT-4o mostra una comprensione superiore dei compiti visivi e audio, migliorando la sua capacità di interagire con i contenuti multimediali.
  • Interazioni naturali: Le dimostrazioni hanno incluso due GPT-4 che si sono cimentati in una canzone, hanno aiutato a preparare i colloqui, hanno giocato a giochi come sasso, carta e forbice e hanno persino creato umorismo con battute su papà.
  • Costi ridotti per gli sviluppatori: OpenAI ha ridotto il costo per gli sviluppatori che utilizzano GPT-4o di 50% e raddoppiato la velocità di elaborazione.
  • Prestazioni di benchmark: Parametri di riferimento GPT-4o eccelle nei compiti multilingue, audio e visivi, anche se test indipendenti confermano che è dietro al GPT-4 in alcuni compiti di codifica, matematica e altri "difficili". 

GPT-4o è un annuncio significativo per OpenAI, particularly as its the most powerful free closed model available by a sizeable margin.

Potrebbe essere il segnale di un'era di multi-modalità dell'IA pratica e utile con cui le persone inizieranno a confrontarsi in massa.

Si tratterebbe di un'enorme pietra miliare sia per l'azienda che per il settore dell'intelligenza artificiale generativa nel suo complesso.

Partecipa al futuro


ISCRIVITI OGGI

Chiaro, conciso, completo. Per conoscere gli sviluppi dell'IA con DailyAI

Sam Jeans

Sam è uno scrittore di scienza e tecnologia che ha lavorato in diverse startup di intelligenza artificiale. Quando non scrive, lo si può trovare a leggere riviste mediche o a scavare tra scatole di dischi in vinile.

×

PDF GRATUITO ESCLUSIVO
Rimanere all'avanguardia con DailyAI

Iscriviti alla nostra newsletter settimanale e ricevi l'accesso esclusivo all'ultimo eBook di DailyAI: 'Mastering AI Tools: La tua guida 2024 per una maggiore produttività".

*Iscrivendosi alla nostra newsletter si accetta la nostra Informativa sulla privacy e il nostro Termini e condizioni