OpenAI ha dichiarato di aver effettuato un test su piccola scala del suo nuovo prodotto di clonazione vocale Voice Engine con alcuni partner selezionati. I risultati mostrano applicazioni promettenti per la tecnologia, ma i problemi di sicurezza potrebbero impedirne il rilascio.
OpenAI afferma che Voice Engine è in grado di clonare la voce di un essere umano sulla base di una singola registrazione di 15 secondi della sua voce. Lo strumento è quindi in grado di generare "un discorso dal suono naturale che assomiglia molto all'oratore originale".
Una volta clonato, Voice Engine può trasformare gli input di testo in un discorso udibile utilizzando "voci emotive e realistiche". La capacità di questo strumento rende possibili applicazioni interessanti, ma solleva anche seri problemi di sicurezza.
Casi d'uso promettenti
OpenAI ha iniziato a testare Voice Engine alla fine dello scorso anno per verificare come un piccolo gruppo di partecipanti selezionati potesse utilizzare la tecnologia.
Alcuni esempi di come i partner di test di Voice Engine hanno utilizzato il prodotto sono:
- Insegnamento adattativo - Age of Learning ha utilizzato Voice Engine per fornire assistenza alla lettura ai bambini, creare contenuti vocali per il materiale didattico e fornire risposte verbali personalizzate per interagire con gli studenti.
- Tradurre i contenuti - HeyGen ha utilizzato Voice Engine per la traduzione dei video, in modo che il marketing dei prodotti e le dimostrazioni di vendita potessero raggiungere un mercato più ampio. L'audio tradotto mantiene l'accento nativo della persona. Così, quando l'audio di un madrelingua francese viene tradotto in inglese, si sente ancora il suo accento francese.
- Fornire servizi sociali più ampi - Dimagi forma gli operatori sanitari in contesti remoti. Ha utilizzato Voice Engine per fornire formazione e feedback interattivi agli operatori sanitari in lingue poco diffuse.
- Supporto alle persone non verbali - Livox consente alle persone non verbali di comunicare utilizzando dispositivi di comunicazione alternativi. Voice Engine permette a queste persone di scegliere una voce che le rappresenti al meglio piuttosto che una voce più robotica.
- Aiutare i pazienti a recuperare la voce - Lifespan ha sperimentato un programma che offre Voice Engine a persone con problemi di linguaggio dovuti a cancro o a condizioni neurologiche.
Voice Engine non è il primo strumento di clonazione vocale dell'intelligenza artificiale, ma i campioni presenti in Post sul blog di OpenAI indicano che rappresenta lo stato dell'arte e potrebbe addirittura essere migliore di ElevenLabs.
Ecco solo un esempio dell'inflessione naturale e delle caratteristiche emotive che può generare.
OpenAI ha appena lanciato Voice Engine,
Utilizza l'input di testo e un singolo campione audio di 15 secondi per generare un parlato naturale che assomiglia molto all'oratore originale.
L'audio di riferimento e quello generato sono molto vicini e difficili da distinguere.
Maggiori dettagli in 🧵 pic.twitter.com/tJRrCO2WZP- AshutoshShrivastava (@ai_for_success) 29 marzo 2024
Problemi di sicurezza
OpenAI ha dichiarato di essere rimasta colpita dai casi d'uso proposti dai partecipanti al test, ma di aver bisogno di maggiori misure di sicurezza prima di decidere "se e come implementare questa tecnologia su scala".
OpenAI sostiene che la tecnologia in grado di riprodurre accuratamente la voce di qualcuno "presenta seri rischi, che sono particolarmente sentiti in un anno di elezioni". False telefonate di Biden e il falso video della candidata al Senato Kari Lake sono dei casi esemplari.
Oltre alle chiare restrizioni contenute nelle sue politiche generali di utilizzo, i partecipanti alla sperimentazione dovevano avere "il consenso esplicito e informato dell'oratore originale" e non potevano costruire un prodotto che permettesse alle persone di creare le proprie voci.
OpenAI afferma di aver implementato altre misure di sicurezza, tra cui una filigrana audio. Non ha spiegato esattamente come, ma ha detto di poter eseguire un "monitoraggio proattivo" dell'uso di Voice Engine.
Anche altri grandi operatori del settore dell'intelligenza artificiale sono preoccupati per la diffusione di questo tipo di tecnologia.
L'intelligenza artificiale vocale è di gran lunga la modalità più pericolosa.
La voce sovrumana e persuasiva è qualcosa contro cui abbiamo difese minime.
Trovare una soluzione a questo problema dovrebbe essere una delle nostre principali priorità.
(Avevamo dei modelli sota ma non li abbiamo rilasciati per questo motivo, ad es. https://t.co/vjY99uCdTl) https://t.co/fKIZrVQCml
- Emad acc/acc (@EMostaque) 29 marzo 2024
Cosa c'è dopo?
Il resto di noi potrà giocare con Voice Engine? È improbabile, e forse è un bene. Il potenziale di uso malevolo è enorme.
OpenAI sta già raccomandando a istituzioni come le banche di eliminare gradualmente l'autenticazione vocale come misura di sicurezza.
Voice Engine ha un watermark audio incorporato, ma OpenAI afferma che è necessario un ulteriore lavoro per identificare quando il contenuto audiovisivo è generato dall'IA.
Anche se OpenAI deciderà di non rilasciare Voice Engine, altri lo faranno. I giorni in cui ci si poteva fidare dei propri occhi e delle proprie orecchie sono passati.