OpenAI ha appena presentato il suo nuovo modello di punta, il GPT-4o, con incredibili capacità di riconoscimento vocale e di traduzione.
Come amministratore delegato Sam Altman stesso ha dichiarato, sapevamo OpenAIL'ultimo "aggiornamento di primavera" non era correlato a GPT-5 o ricerca AI.
Ma alle 10.00 PT di oggi, centinaia di migliaia di persone si sono unite alla presentazione in live-streaming del nuovo modello, mentre il Chief Technology Officer (CTO) Mira Murati ne dimostrava i vantaggi rispetto al suo predecessore, il GPT-4.
I principali annunci della sessione dimostrativa includono:
- GPT-4o (la o sta per omni) intende sostituire il GPT-4, con OpenAI che lo definisce il suo nuovo modello fondante di punta.
- Sebbene sia ampiamente simile a GPT-4, GPT-4o offre un'elaborazione multilingue e audiovisiva di qualità superiore. È in grado di elaborare e tradurre l'audio quasi in tempo reale. Test successivi hanno dimostrato che il GPT-4o è peggiore del GPT-4 in alcuni "compiti difficili".
- OpenAI sta facendo GPT-4o liberamente disponibile, con dei limiti. Gli utenti Pro hanno comunque la priorità e un tetto massimo di messaggi.
- OpenAI sta rilasciando anche una versione desktop di ChatGPTinizialmente solo per Mac, che viene distribuito immediatamente.
- I GPT personalizzati diventeranno accessibili anche agli utenti liberi.
- GPT-4o e le sue funzioni vocali si diffonderanno lentamente nelle prossime settimane e mesi.
GPT-4otraduzione audio in tempo reale
Il titolo che ha fatto parlare di sé è l'impressionante elaborazione e traduzione audio del GPT-4o, che opera quasi in tempo reale.
Le dimostrazioni hanno mostrato l'IA impegnata in conversazioni vocali straordinariamente naturali, offrendo traduzioni immediate, raccontando storie e fornendo consigli di codifica.
Ad esempio, il modello può analizzare un'immagine di un menu in lingua straniera, tradurla e fornire approfondimenti e raccomandazioni culturali.
OpenAI ha appena mostrato il suo nuovo modello GPT-4o che esegue traduzioni in tempo reale 🤯 pic.twitter.com/Cl0gp9v3kN
- Tom Warren (@tomwarren) 13 maggio 2024
È in grado di riconoscere le emozioni anche attraverso la respirazione, le espressioni e altri segnali visivi.
Clip di conversazione in tempo reale con GPT4-o in esecuzione su ChatGPT app
NOVITÀ: invece di trasformare SPEECH in testo, GPT-4o è in grado di comprendere ed etichettare anche altre caratteristiche dell'audio, come la respirazione e l'emozione. Non sono sicuro di come questo sia espresso nella risposta del modello.#openai https://t.co/CpvCkjI0iA pic.twitter.com/24C8rhMFAw
- Andrew Gao (@itsandrewgao) 13 maggio 2024
Le capacità di riconoscimento emotivo del GPT-4o attireranno probabilmente delle polemiche una volta che il polverone si sarà posato.
L'IA emotivamente consapevole potrebbe evolvere in casi d'uso potenzialmente nefasti che si basano sull'imitazione umana, come i falsi profondi, l'ingegneria sociale, ecc.
Un'altra abilità impressionante dimostrata dal team è l'assistenza alla codifica in tempo reale fornita a voce.
Con il GPT-4o/ChatGPT L'applicazione desktop consente di avere un compagno di codifica (cerchio nero) che parla con voi e vede quello che vedete voi!#openai thread di annunci! https://t.co/CpvCkjI0iA pic.twitter.com/Tfh81mBHCv
- Andrew Gao (@itsandrewgao) 13 maggio 2024
Una dimostrazione ha visto addirittura due istanze del modello che cantavano tra loro.
Questo demo di due GPT-4o che cantano l'uno per l'altro è una delle cose più assurde che abbia mai visto. pic.twitter.com/UXFfbIpuF6
- Matt Shumer (@mattshumer_) 13 maggio 2024
Il succo generale di OpenAIL'obiettivo dell'azienda è quello di rendere la multimodalità dell'intelligenza artificiale veramente utile negli scenari quotidiani, sfidando strumenti come Google Translate.
Un altro punto fondamentale è che queste demo sono fedeli alla realtà. OpenAI ha sottolineato: "Tutti i video di questa pagina sono in tempo reale", forse alludendo a Google, che ha modificato pesantemente il suo Gemini video dimostrativo per esaltare le sue capacità multimodali.
Con il GPT-4o, le applicazioni AI multimodali potrebbero passare da una novità sepolta nelle interfacce AI a qualcosa con cui gli utenti medi possono interagire quotidianamente.
Anche se la demo è stata impressionante, si tratta pur sempre di una demo e i risultati ottenuti dagli utenti medi "in natura" riveleranno veramente quanto siano competenti queste funzioni.
A parte l'elaborazione e la traduzione vocale in tempo reale, che sta conquistando le luci della ribalta, il fatto che OpenAI è rendere questo nuovo modello libero da vincoli è enorme.
Wl GPT-4o è *solo* un GPT-4 leggermente migliore, ma consentirà a chiunque di disporre di un modello AI di alta qualità, livellando il campo di gioco per milioni di persone in tutto il mondo.
Potete vedere l'annuncio e la demo qui sotto:
Tutto quello che sappiamo sul GPT-4o
Ecco un riepilogo di tutto ciò che sappiamo finora sul GPT-4o:
- Integrazione multimodale: GPT-4o elabora e genera rapidamente dati di testo, audio e immagini, consentendo interazioni dinamiche tra diversi formati.
- Risposte in tempo reale: Il modello vanta tempi di risposta impressionanti, paragonabili alla velocità di reazione umana durante una conversazione, con risposte audio che iniziano in appena 232 millisecondi.
- Capacità linguistiche e di codifica: GPT-4o eguaglia le prestazioni di GPT-4 Turbo nei compiti in inglese e di codifica e lo supera nell'elaborazione di testi non in inglese.
- Miglioramenti audiovisivi: Rispetto ai modelli precedenti, il GPT-4o mostra una comprensione superiore dei compiti visivi e audio, migliorando la sua capacità di interagire con i contenuti multimediali.
- Interazioni naturali: Le dimostrazioni hanno incluso due GPT-4 che si sono cimentati in una canzone, hanno aiutato a preparare i colloqui, hanno giocato a giochi come sasso, carta e forbice e hanno persino creato umorismo con battute su papà.
- Costi ridotti per gli sviluppatori: OpenAI ha ridotto il costo per gli sviluppatori che utilizzano GPT-4o di 50% e raddoppiato la velocità di elaborazione.
- Prestazioni di benchmark: Parametri di riferimento GPT-4o eccelle nei compiti multilingue, audio e visivi, anche se test indipendenti confermano che è dietro al GPT-4 in alcuni compiti di codifica, matematica e altri "difficili".
GPT-4o è un annuncio significativo per OpenAI, particularly as its the most powerful free closed model available by a sizeable margin.
Potrebbe essere il segnale di un'era di multi-modalità dell'IA pratica e utile con cui le persone inizieranno a confrontarsi in massa.
Si tratterebbe di un'enorme pietra miliare sia per l'azienda che per il settore dell'intelligenza artificiale generativa nel suo complesso.