OpenAI ha presentato le funzioni vocali e di immagine per ChatGPT, che saranno disponibili nelle prossime settimane sia per l'app che per il browser.
È giusto dire che OpenAI si è adagiata sugli allori con ChatGPT, che non incorpora lo stesso livello di funzionalità dei concorrenti Claude di Anthropic e Bard di Google.
All'inizio dell'anno OpenAI ha aggiunto una funzione di ricerca via browser per ChatGPT, garantendo allo strumento l'accesso a Internet, ma non ha funzionato particolarmente bene ed è stato rimosso per aver potenzialmente violato i diritti d'autore "stampando" testi da siti web a pagamento.
Detto questo, GPT-4 è di gran lunga il modello linguistico di grandi dimensioni (LLM) più complesso in circolazione, che ha mantenuto OpenAI in cima alla classifica dell'IA generativa.
OpenAI ha ora potenziato le funzionalità del chatbot, mantenendo ChatGPT saldamente sotto i riflettori mentre la concorrenza del settore si fa sempre più agguerrita.
Cosa c'è di nuovo?
OpenAI sta aggiungendo quanto segue a ChatGPT:
- Interazione vocale: Gli utenti possono ora parlare direttamente a ChatGPT e in cambio l'intelligenza artificiale può rispondere in modo udibile utilizzando una delle sue cinque voci sintetizzate. Questa funzione vocale è supportata da un modello avanzato di sintesi vocale che OpenAI ha addestrato utilizzando campioni di attori vocali. ChatGPT sfrutta Sussurro, il sistema vocale open-source di OpenAI per il riconoscimento del parlato.
- Interazione con l'immagine: Oltre alla voce, gli utenti possono ora fornire a ChatGPT immagini, aggiungendo una dimensione visiva alla conversazione. Ad esempio, se un utente condivide la foto di un elettrodomestico rotto, ChatGPT potrebbe diagnosticare il problema e suggerire soluzioni. Sulle piattaforme mobili, è stato integrato uno strumento di disegno che consente agli utenti di cerchiare o individuare aree specifiche di un'immagine su cui concentrare l'intelligenza artificiale. Le funzionalità relative alle immagini sono gestite da una versione multimodale dei modelli GPT-3.5 e GPT-4, che sono stati messi a punto per interpretare e ragionare sugli input visivi.
Con queste nuove aggiunte, gli utenti possono conversare con il chatbot e chiedergli, tra le altre cose, informazioni specifiche sul contenuto delle immagini.
Non c'è dubbio che la comunità troverà modi interessanti per testare i limiti del nuovo ChatGPT.
OpenAI ha pubblicato la seguente demo promozionale su X:
Usate la vostra voce per avviare una conversazione con ChatGPT. Parlate con lui mentre siete in viaggio, chiedete una storia della buonanotte o risolvete un dibattito a tavola.
Suono 🔊 pic.twitter.com/3tuWzX0wtS
- OpenAI (@OpenAI) 25 settembre 2023
Rischi e piano di lancio
Le nuove funzioni comportano nuovi rischi. Ad esempio, la tecnologia vocale potrebbe essere usata impropriamente per impersonare personaggi pubblici. Per precauzione, OpenAI ha limitato la funzione vocale alla sola chat di conversazione.
Per quanto riguarda le immagini, OpenAI ha deliberatamente limitato la capacità di ChatGPT di analizzare direttamente le persone nelle foto.
OpenAI prevede una distribuzione graduale, con gli utenti ChatGPT Plus ed Enterprise che saranno i primi a ricevere l'accesso.
La funzione vocale sarà disponibile sulle applicazioni mobili, mentre le funzioni di immagine saranno accessibili su tutte le piattaforme.
L'annuncio di OpenAI si inserisce in una serie di prodotti di IA generativa recenti e imminenti, tra cui gli strumenti di YouTube, Copilot di Microsoft di strumenti e assistenti di intelligenza artificiale, e un'importante aggiornamento di Google Bard.