Meta ha presentato Casella vocaleun modello di intelligenza artificiale generativa allo stato dell'arte per il parlato. Funziona in modo simile ai generatori di testo, come ChatGPT, ma genera risposte audio anziché testuali.
Voicebox può generare audio da zero o modificare quello esistente. È uno strumento altamente flessibile che può prendere un clip audio di 2 secondi della voce di una persona e usarlo per generare un discorso in una lingua diversa, mantenendo l'intonazione della voce.
Questo si combina con la generazione di testo in sintesi vocale. È quindi possibile "inserire" la propria voce nell'intelligenza artificiale e utilizzarla per la generazione di testo a voce con la propria voce. Ad esempio, se siete in vacanza e dovete comunicare in inglese, francese, spagnolo, tedesco, polacco o portoghese, è sufficiente digitare il vostro messaggio in Voicebox, che parlerà per voi.
Il modello è stato addestrato con oltre 50.000 ore di parlato registrato e trascrizioni in 6 lingue: Inglese, francese, spagnolo, tedesco, polacco e portoghese. È molto più veloce e preciso di altre IA audio-centriche simili, come VALL-E.
Ecco i 4 usi principali di Voicebox:
- Sintesi vocale in contesto: Voicebox è in grado di generare un audio realistico a partire dal testo. Questo potrebbe essere utilizzato per creare assistenti virtuali multilingue per consentire alle persone con problemi di voce e di udito di conversare in modo più naturale.
- Trasferimento di stile tra le lingue: L'intelligenza artificiale può tradurre il testo in 6 lingue diverse, consentendo una comunicazione multilingue autentica e naturale.
- Denoising ed editing del parlato: Voicebox può generare il parlato per modificare segmenti di registrazioni audio. Ad esempio, può risintetizzare parti di parlato danneggiate dal rumore.
- Campionamento vocale diversificato: Voicebox è in grado di generare un parlato rappresentativo in 6 lingue, ideale per generare dati sintetici per altri modelli vocali e audio con risultati impressionanti. I modelli di riconoscimento vocale addestrati sul parlato sintetico generato da Voicebox hanno prestazioni quasi uguali a quelle dei modelli addestrati sul parlato reale, con una degradazione marginale del tasso di errore di 1%, un salto enorme rispetto alla degradazione da 45 a 70% osservata in modelli simili.
Meta non ha ancora rilasciato Voicebox, per timore di abusi. Tuttavia, ha pubblicato un documento approfondito sul modello, disponibile qui.
Sebbene non ci sia una stima ufficiale di quando le persone potranno utilizzare Voicebox, Meta afferma che lo strumento aiuterà i creatori a modificare le tracce audio, a migliorare la comunicazione con le persone ipovedenti e a consentire alle persone di parlare qualsiasi lingua straniera con la propria voce.