OpenAI dice che Voice Engine potrebbe essere troppo rischioso da rilasciare

1 aprile 2024

  • OpenAI ha rivelato il Voice Engine che clona una voce umana da soli 15 secondi di parlato
  • Voice Engine è stato testato da un piccolo gruppo di partner, ma OpenAI è riluttante a rilasciarlo pubblicamente.
  • OpenAI aggiunge un watermark all'audio clonato di Voice Engine, ma dice che sono necessarie ulteriori misure di sicurezza

OpenAI ha dichiarato di aver effettuato un test su piccola scala del suo nuovo prodotto di clonazione vocale Voice Engine con alcuni partner selezionati. I risultati mostrano applicazioni promettenti per la tecnologia, ma i problemi di sicurezza potrebbero impedirne il rilascio.

OpenAI afferma che Voice Engine è in grado di clonare la voce di un essere umano sulla base di una singola registrazione di 15 secondi della sua voce. Lo strumento è quindi in grado di generare "un discorso dal suono naturale che assomiglia molto all'oratore originale".

Una volta clonato, Voice Engine può trasformare gli input di testo in un discorso udibile utilizzando "voci emotive e realistiche". La capacità di questo strumento rende possibili applicazioni interessanti, ma solleva anche seri problemi di sicurezza.

Casi d'uso promettenti

OpenAI ha iniziato a testare Voice Engine alla fine dello scorso anno per verificare come un piccolo gruppo di partecipanti selezionati potesse utilizzare la tecnologia.

Alcuni esempi di come i partner di test di Voice Engine hanno utilizzato il prodotto sono:

  • Insegnamento adattativo - Age of Learning ha utilizzato Voice Engine per fornire assistenza alla lettura ai bambini, creare contenuti vocali per il materiale didattico e fornire risposte verbali personalizzate per interagire con gli studenti.
  • Tradurre i contenuti - HeyGen ha utilizzato Voice Engine per la traduzione dei video, in modo che il marketing dei prodotti e le dimostrazioni di vendita potessero raggiungere un mercato più ampio. L'audio tradotto mantiene l'accento nativo della persona. Così, quando l'audio di un madrelingua francese viene tradotto in inglese, si sente ancora il suo accento francese.
  • Fornire servizi sociali più ampi - Dimagi forma gli operatori sanitari in contesti remoti. Ha utilizzato Voice Engine per fornire formazione e feedback interattivi agli operatori sanitari in lingue poco diffuse.
  • Supporto alle persone non verbali - Livox consente alle persone non verbali di comunicare utilizzando dispositivi di comunicazione alternativi. Voice Engine permette a queste persone di scegliere una voce che le rappresenti al meglio piuttosto che una voce più robotica.
  • Aiutare i pazienti a recuperare la voce - Lifespan ha sperimentato un programma che offre Voice Engine a persone con problemi di linguaggio dovuti a cancro o a condizioni neurologiche.

Voice Engine non è il primo strumento di clonazione vocale dell'intelligenza artificiale, ma i campioni presenti in Post sul blog di OpenAI indicano che rappresenta lo stato dell'arte e potrebbe addirittura essere migliore di ElevenLabs.

Ecco solo un esempio dell'inflessione naturale e delle caratteristiche emotive che può generare.

Problemi di sicurezza

OpenAI ha dichiarato di essere rimasta colpita dai casi d'uso proposti dai partecipanti al test, ma di aver bisogno di maggiori misure di sicurezza prima di decidere "se e come implementare questa tecnologia su scala".

OpenAI sostiene che la tecnologia in grado di riprodurre accuratamente la voce di qualcuno "presenta seri rischi, che sono particolarmente sentiti in un anno di elezioni". False telefonate di Biden e il falso video della candidata al Senato Kari Lake sono dei casi esemplari.

Oltre alle chiare restrizioni contenute nelle sue politiche generali di utilizzo, i partecipanti alla sperimentazione dovevano avere "il consenso esplicito e informato dell'oratore originale" e non potevano costruire un prodotto che permettesse alle persone di creare le proprie voci.

OpenAI afferma di aver implementato altre misure di sicurezza, tra cui una filigrana audio. Non ha spiegato esattamente come, ma ha detto di poter eseguire un "monitoraggio proattivo" dell'uso di Voice Engine.

Anche altri grandi operatori del settore dell'intelligenza artificiale sono preoccupati per la diffusione di questo tipo di tecnologia.

Cosa c'è dopo?

Il resto di noi potrà giocare con Voice Engine? È improbabile, e forse è un bene. Il potenziale di uso malevolo è enorme.

OpenAI sta già raccomandando a istituzioni come le banche di eliminare gradualmente l'autenticazione vocale come misura di sicurezza.

Voice Engine ha un watermark audio incorporato, ma OpenAI afferma che è necessario un ulteriore lavoro per identificare quando il contenuto audiovisivo è generato dall'IA.

Anche se OpenAI deciderà di non rilasciare Voice Engine, altri lo faranno. I giorni in cui ci si poteva fidare dei propri occhi e delle proprie orecchie sono passati.

Partecipa al futuro


ISCRIVITI OGGI

Chiaro, conciso, completo. Per conoscere gli sviluppi dell'IA con DailyAI

Eugene van der Watt

Eugene proviene da un background di ingegneria elettronica e ama tutto ciò che è tecnologico. Quando si prende una pausa dal consumo di notizie sull'intelligenza artificiale, lo si può trovare al tavolo da biliardo.

×

PDF GRATUITO ESCLUSIVO
Rimanere all'avanguardia con DailyAI

Iscriviti alla nostra newsletter settimanale e ricevi l'accesso esclusivo all'ultimo eBook di DailyAI: 'Mastering AI Tools: La tua guida 2024 per una maggiore produttività".

*Iscrivendosi alla nostra newsletter si accetta la nostra Informativa sulla privacy e il nostro Termini e condizioni