Meta ha rilasciato questa settimana la sua AI generativa da testo ad audio, chiamata AudioCraft, e i campioni dei suoi risultati sono impressionanti.
Lo spazio dell'IA generativa ha visto uno sviluppo esponenziale nella generazione di testi, immagini e voci, ma non ci sono state molte novità nello spazio della generazione audio dell'IA. AudioCraft è uno dei primi strumenti text-to-audio di questo tipo, disponibile per essere provato correttamente.
All'inizio di quest'anno Google ci ha dato una sbirciatina al suo generatore di testo-musica MusicLM, ma a 8 mesi di distanza è ancora possibile provarlo solo se si viene accettati nella sua AI Test Kitchen.
I modelli pre-addestrati di AudioCraft sono disponibili per il download su GitHub e Meta spera che la sua strategia open-source favorisca l'adozione e la sperimentazione per migliorare i modelli.
AudioCraft è composto dai modelli MusicGen, AudioGen ed Encodec di Meta.
Il modello MusicGen è stato addestrato su musica specificamente concessa in licenza e di proprietà di Meta e produce musica a partire da una richiesta di testo. L'esempio sul blog di Meta utilizzava la seguente richiesta: "Brano pop dance con melodie orecchiabili, percussioni tropicali e ritmi in levare, perfetto per la spiaggia".
L'output musicale è piuttosto buono e corrisponde perfettamente alla richiesta. È probabile che il campione sia stato scelto di proposito, ma è comunque impressionante. È possibile ascoltare altri campioni qui.
🎵 Oggi condividiamo i dettagli di AudioCraft, una famiglia di modelli di intelligenza artificiale generativa che consente di generare facilmente audio e musica di alta qualità a partire dal testo.https://t.co/04XAq4rlap pic.twitter.com/JreMIBGbTF
- Meta Newsroom (@MetaNewsroom) 2 agosto 2023
Sebbene esistano alcuni strumenti text-to-music che si possono provare online, il modello AudioGen è piuttosto unico. Il modello è stato addestrato su effetti sonori pubblici e genera effetti sonori complessi sulla base di richieste di testo. L'esempio di richiesta sul blog di Meta era: "Sirene e un motore ronzante si avvicinano e passano" e suonava benissimo. Ecco alcuni altri Effetti di campionamento AudioGen.
La possibilità di generare gratuitamente effetti sonori a partire da descrizioni testuali sarà enorme per i creatori di contenuti. Immaginate di realizzare un clip per i social media o un video su Youtube e di ottenere esattamente l'effetto sonoro giusto senza dover pagare per scaricarlo da un sito di effetti sonori.
Il modello Encodec è probabilmente la parte più interessante di AudioCraft. Si tratta di un codec per l'audio alimentato dall'intelligenza artificiale. Un codec è un software che prende i dati e li comprime perdendone il meno possibile. Se avete riprodotto un file musicale MP3, avete usato un codec.
Encodec elimina il più possibile i dati dal file audio generato e poi utilizza l'AI per riempire gli spazi vuoti quando l'audio deve essere riprodotto. Il risultato è che i file audio compressi possono essere 10 volte più piccoli di quelli memorizzati come MP3.
Meta non ha ancora un codec simile per i video, ma riuscite a immaginare le implicazioni della compressione di video e audio di un fattore 10 senza perdere fedeltà? Potreste liberare 90% di spazio sul vostro disco rigido o trasmettere musica e video 10 volte più velocemente con la stessa larghezza di banda.
Sarà interessante vedere come gli sviluppatori utilizzeranno lo strumento text-to-audio di Meta. Sembra che Meta abbia addestrato i propri modelli in modo responsabile, ma altri utenti dei modelli potrebbero non condividere le loro preoccupazioni etiche e legali. Ci si aspetta un acceso dibattito sul fatto che la musica protetta da copyright sia adatta all'addestramento dell'intelligenza artificiale.
E mentre attori e sceneggiatori continuano a scioperareGli strumenti musicali gratuiti, come AudioCraft, potrebbero presto far aderire al picchetto anche i musicisti e gli artisti degli effetti sonori.