Meta presenta Voicebox, un'intelligenza artificiale all'avanguardia incentrata sull'audio

17 giugno 2023

AI Meta

Meta ha presentato Casella vocaleun modello di intelligenza artificiale generativa allo stato dell'arte per il parlato. Funziona in modo simile ai generatori di testo, come ChatGPT, ma genera risposte audio anziché testuali. 

Voicebox può generare audio da zero o modificare quello esistente. È uno strumento altamente flessibile che può prendere un clip audio di 2 secondi della voce di una persona e usarlo per generare un discorso in una lingua diversa, mantenendo l'intonazione della voce.

Questo si combina con la generazione di testo in sintesi vocale. È quindi possibile "inserire" la propria voce nell'intelligenza artificiale e utilizzarla per la generazione di testo a voce con la propria voce. Ad esempio, se siete in vacanza e dovete comunicare in inglese, francese, spagnolo, tedesco, polacco o portoghese, è sufficiente digitare il vostro messaggio in Voicebox, che parlerà per voi.

Il modello è stato addestrato con oltre 50.000 ore di parlato registrato e trascrizioni in 6 lingue: Inglese, francese, spagnolo, tedesco, polacco e portoghese. È molto più veloce e preciso di altre IA audio-centriche simili, come VALL-E.  

Ecco i 4 usi principali di Voicebox:

  1. Sintesi vocale in contesto: Voicebox è in grado di generare un audio realistico a partire dal testo. Questo potrebbe essere utilizzato per creare assistenti virtuali multilingue per consentire alle persone con problemi di voce e di udito di conversare in modo più naturale. 
  2. Trasferimento di stile tra le lingue: L'intelligenza artificiale può tradurre il testo in 6 lingue diverse, consentendo una comunicazione multilingue autentica e naturale.
  3. Denoising ed editing del parlato: Voicebox può generare il parlato per modificare segmenti di registrazioni audio. Ad esempio, può risintetizzare parti di parlato danneggiate dal rumore. 
  4. Campionamento vocale diversificato: Voicebox è in grado di generare un parlato rappresentativo in 6 lingue, ideale per generare dati sintetici per altri modelli vocali e audio con risultati impressionanti. I modelli di riconoscimento vocale addestrati sul parlato sintetico generato da Voicebox hanno prestazioni quasi uguali a quelle dei modelli addestrati sul parlato reale, con una degradazione marginale del tasso di errore di 1%, un salto enorme rispetto alla degradazione da 45 a 70% osservata in modelli simili. 

Meta non ha ancora rilasciato Voicebox, per timore di abusi. Tuttavia, ha pubblicato un documento approfondito sul modello, disponibile qui

Sebbene non ci sia una stima ufficiale di quando le persone potranno utilizzare Voicebox, Meta afferma che lo strumento aiuterà i creatori a modificare le tracce audio, a migliorare la comunicazione con le persone ipovedenti e a consentire alle persone di parlare qualsiasi lingua straniera con la propria voce.

Partecipa al futuro


ISCRIVITI OGGI

Chiaro, conciso, completo. Per conoscere gli sviluppi dell'IA con DailyAI

Sam Jeans

Sam è uno scrittore di scienza e tecnologia che ha lavorato in diverse startup di intelligenza artificiale. Quando non scrive, lo si può trovare a leggere riviste mediche o a scavare tra scatole di dischi in vinile.

×

PDF GRATUITO ESCLUSIVO
Rimanere all'avanguardia con DailyAI

Iscriviti alla nostra newsletter settimanale e ricevi l'accesso esclusivo all'ultimo eBook di DailyAI: 'Mastering AI Tools: La tua guida 2024 per una maggiore produttività".

*Iscrivendosi alla nostra newsletter si accetta la nostra Informativa sulla privacy e il nostro Termini e condizioni