Tutto quello che c'è da sapere sul nuovo modello di punta di OpenAI, GPT-4o

OpenAI ha appena presentato il suo nuovo modello di punta, il GPT-4o, con incredibili capacità di riconoscimento vocale e di traduzione.

Come amministratore delegato Sam Altman stesso ha dichiarato, sapevamo OpenAIL'ultimo "aggiornamento di primavera" non era correlato a GPT-5 o ricerca AI.

Ma alle 10.00 PT di oggi, centinaia di migliaia di persone si sono unite alla presentazione in live-streaming del nuovo modello, mentre il Chief Technology Officer (CTO) Mira Murati ne dimostrava i vantaggi rispetto al suo predecessore, il GPT-4.

I principali annunci della sessione dimostrativa includono:

GPT-4o (la o sta per omni) intende sostituire il GPT-4, con OpenAI che lo definisce il suo nuovo modello fondante di punta.
Sebbene sia ampiamente simile a GPT-4, GPT-4o offre un'elaborazione multilingue e audiovisiva di qualità superiore. È in grado di elaborare e tradurre l'audio quasi in tempo reale. Test successivi hanno dimostrato che il GPT-4o è peggiore del GPT-4 in alcuni "compiti difficili".
OpenAI sta facendo GPT-4o liberamente disponibile, con dei limiti. Gli utenti Pro hanno comunque la priorità e un tetto massimo di messaggi.
OpenAI sta rilasciando anche una versione desktop di ChatGPTinizialmente solo per Mac, che viene distribuito immediatamente.
I GPT personalizzati diventeranno accessibili anche agli utenti liberi.
GPT-4o e le sue funzioni vocali si diffonderanno lentamente nelle prossime settimane e mesi.

GPT-4otraduzione audio in tempo reale

Il titolo che ha fatto parlare di sé è l'impressionante elaborazione e traduzione audio del GPT-4o, che opera quasi in tempo reale.

Le dimostrazioni hanno mostrato l'IA impegnata in conversazioni vocali straordinariamente naturali, offrendo traduzioni immediate, raccontando storie e fornendo consigli di codifica.

Ad esempio, il modello può analizzare un'immagine di un menu in lingua straniera, tradurla e fornire approfondimenti e raccomandazioni culturali.

OpenAI ha appena mostrato il suo nuovo modello GPT-4o che esegue traduzioni in tempo reale 🤯 pic.twitter.com/Cl0gp9v3kN

- Tom Warren (@tomwarren) 13 maggio 2024

È in grado di riconoscere le emozioni anche attraverso la respirazione, le espressioni e altri segnali visivi.

Clip di conversazione in tempo reale con GPT4-o in esecuzione su ChatGPT app

NOVITÀ: invece di trasformare SPEECH in testo, GPT-4o è in grado di comprendere ed etichettare anche altre caratteristiche dell'audio, come la respirazione e l'emozione. Non sono sicuro di come questo sia espresso nella risposta del modello.#openai https://t.co/CpvCkjI0iA pic.twitter.com/24C8rhMFAw

- Andrew Gao (@itsandrewgao) 13 maggio 2024

Le capacità di riconoscimento emotivo del GPT-4o attireranno probabilmente delle polemiche una volta che il polverone si sarà posato.

L'IA emotivamente consapevole potrebbe evolvere in casi d'uso potenzialmente nefasti che si basano sull'imitazione umana, come i falsi profondi, l'ingegneria sociale, ecc.

Un'altra abilità impressionante dimostrata dal team è l'assistenza alla codifica in tempo reale fornita a voce.

Con il GPT-4o/ChatGPT L'applicazione desktop consente di avere un compagno di codifica (cerchio nero) che parla con voi e vede quello che vedete voi!#openai thread di annunci! https://t.co/CpvCkjI0iA pic.twitter.com/Tfh81mBHCv

- Andrew Gao (@itsandrewgao) 13 maggio 2024

Una dimostrazione ha visto addirittura due istanze del modello che cantavano tra loro.

Questo demo di due GPT-4o che cantano l'uno per l'altro è una delle cose più assurde che abbia mai visto. pic.twitter.com/UXFfbIpuF6

- Matt Shumer (@mattshumer_) 13 maggio 2024

Il succo generale di OpenAIL'obiettivo dell'azienda è quello di rendere la multimodalità dell'intelligenza artificiale veramente utile negli scenari quotidiani, sfidando strumenti come Google Translate.

Un altro punto fondamentale è che queste demo sono fedeli alla realtà. OpenAI ha sottolineato: "Tutti i video di questa pagina sono in tempo reale", forse alludendo a Google, che ha modificato pesantemente il suo Gemini video dimostrativo per esaltare le sue capacità multimodali.

Con il GPT-4o, le applicazioni AI multimodali potrebbero passare da una novità sepolta nelle interfacce AI a qualcosa con cui gli utenti medi possono interagire quotidianamente.

Anche se la demo è stata impressionante, si tratta pur sempre di una demo e i risultati ottenuti dagli utenti medi "in natura" riveleranno veramente quanto siano competenti queste funzioni.

A parte l'elaborazione e la traduzione vocale in tempo reale, che sta conquistando le luci della ribalta, il fatto che OpenAI è rendere questo nuovo modello libero da vincoli è enorme.

Wl GPT-4o è *solo* un GPT-4 leggermente migliore, ma consentirà a chiunque di disporre di un modello AI di alta qualità, livellando il campo di gioco per milioni di persone in tutto il mondo.

Potete vedere l'annuncio e la demo qui sotto:

Tutto quello che sappiamo sul GPT-4o

Ecco un riepilogo di tutto ciò che sappiamo finora sul GPT-4o:

Integrazione multimodale: GPT-4o elabora e genera rapidamente dati di testo, audio e immagini, consentendo interazioni dinamiche tra diversi formati.
Risposte in tempo reale: Il modello vanta tempi di risposta impressionanti, paragonabili alla velocità di reazione umana durante una conversazione, con risposte audio che iniziano in appena 232 millisecondi.
Capacità linguistiche e di codifica: GPT-4o eguaglia le prestazioni di GPT-4 Turbo nei compiti in inglese e di codifica e lo supera nell'elaborazione di testi non in inglese.
Miglioramenti audiovisivi: Rispetto ai modelli precedenti, il GPT-4o mostra una comprensione superiore dei compiti visivi e audio, migliorando la sua capacità di interagire con i contenuti multimediali.
Interazioni naturali: Le dimostrazioni hanno incluso due GPT-4 che si sono cimentati in una canzone, hanno aiutato a preparare i colloqui, hanno giocato a giochi come sasso, carta e forbice e hanno persino creato umorismo con battute su papà.
Costi ridotti per gli sviluppatori: OpenAI ha ridotto il costo per gli sviluppatori che utilizzano GPT-4o di 50% e raddoppiato la velocità di elaborazione.
Prestazioni di benchmark: Parametri di riferimento GPT-4o eccelle nei compiti multilingue, audio e visivi, anche se test indipendenti confermano che è dietro al GPT-4 in alcuni compiti di codifica, matematica e altri "difficili".

GPT-4o è un annuncio significativo per OpenAI, particularly as its the most powerful free closed model available by a sizeable margin.

Potrebbe essere il segnale di un'era di multi-modalità dell'IA pratica e utile con cui le persone inizieranno a confrontarsi in massa.

Si tratterebbe di un'enorme pietra miliare sia per l'azienda che per il settore dell'intelligenza artificiale generativa nel suo complesso.

Tutto quello che c'è da sapere sul nuovo modello di punta di OpenAI, il GPT-4o

GPT-4otraduzione audio in tempo reale

Tutto quello che sappiamo sul GPT-4o

Partecipa al futuro

Sam Jeans

ARTICOLI CORRELATI

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

Tutto quello che c'è da sapere sul nuovo modello di punta di OpenAI, il GPT-4o

GPT-4otraduzione audio in tempo reale

Tutto quello che sappiamo sul GPT-4o

Partecipa al futuro

Sam Jeans

ARTICOLI CORRELATI

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

PDF GRATUITO ESCLUSIVORimanere all'avanguardia con DailyAI

PDF GRATUITO ESCLUSIVO
Rimanere all'avanguardia con DailyAI